2026年5月,一篇名为δ-mem的论文在arXiv上发表,提出了一种极简的大语言模型在线记忆机制。仅用一个8×8的状态矩阵,就能让预训练LLM在不更新权重的情况下持续学习新信息,在多个基准测试中取得了1.10倍的性能提升。
背景:LLM的”记忆”问题
大语言模型(LLM)有一个根本性的限制:它们的知识在训练完成后就固定了。虽然RAG(检索增强生成)可以通过外部知识库补充信息,但每次都检索既慢又不优雅。
研究人员一直在探索一种更高效的方案:能否让LLM在推理过程中”记住”新信息,而不需要重新训练?
δ-mem的核心思路
δ-mem的答案是:用delta规则(delta rule)学习一个极小的在线记忆矩阵。
具体来说:
1. 8×8的状态矩阵
δ-mem为每一层维护一个仅8×8大小的状态矩阵。这个矩阵充当”短期记忆”,在每次前向传播时根据输入内容动态更新。
2. Delta规则学习
Delta规则是神经网络中最古老的学习规则之一(来自1960年代的感知机)。δ-mem将其重新引入,用于在线更新状态矩阵:当模型处理新信息时,根据预测误差调整矩阵值。
3. 无需梯度更新
与传统的微调不同,δ-mem不需要反向传播和梯度计算。状态矩阵的更新是前向传播的一部分,计算开销极小。
技术细节
δ-mem的实现原理可以用以下步骤概括:
# 伪代码示意
for each input token:
# 1. 正常的Transformer前向传播
hidden = transformer_layer(token)
# 2. 用delta规则更新状态矩阵
prediction = state_matrix @ hidden
error = target - prediction
state_matrix += learning_rate * error @ hidden.T
# 3. 将状态信息融合到输出
output = hidden + state_matrix @ hidden
实验结果
δ-mem在多个基准测试中展示了令人印象深刻的结果:
- 性能提升:相比冻结权重的基线模型,δ-mem取得了1.10倍的性能提升
- 计算开销极小:状态矩阵仅8×8,对推理速度几乎没有影响
- 无需额外训练数据:δ-mem在推理过程中在线学习,不需要额外的训练集
对实际应用的意义
δ-mem虽然目前还是一项研究工作,但它对LLM的实际应用有几个重要启示:
- 更高效的个性化:如果δ-mem能够实用化,用户可以让LLM在使用过程中自动”记住”偏好和上下文,而不需要微调
- RAG的补充:δ-mem提供了一种轻量级的在线记忆机制,可以与RAG系统互补
- 边缘部署:由于计算开销极小,δ-mem特别适合在资源受限的环境中部署
相关工作
δ-mem属于”高效LLM记忆”这一研究方向,相关工作包括:
- Memorizing Transformers:通过外部KV-cache存储历史信息
- ∞-former:无限上下文长度的Transformer变体
- RMT(Recurrent Memory Transformer):通过特殊token实现循环记忆
δ-mem的独特之处在于它的极简性——仅8×8矩阵,无需额外参数,无需梯度更新。
本文参考来源:δ-mem: Efficient Online Memory for LLMs – arXiv:2605.12357
© 版权声明
THE END















暂无评论内容