δ-mem:用8×8矩阵给大语言模型加上”在线记忆”的轻量方案

2026年5月,一篇名为δ-mem的论文在arXiv上发表,提出了一种极简的大语言模型在线记忆机制。仅用一个8×8的状态矩阵,就能让预训练LLM在不更新权重的情况下持续学习新信息,在多个基准测试中取得了1.10倍的性能提升。

背景:LLM的”记忆”问题

大语言模型(LLM)有一个根本性的限制:它们的知识在训练完成后就固定了。虽然RAG(检索增强生成)可以通过外部知识库补充信息,但每次都检索既慢又不优雅。

研究人员一直在探索一种更高效的方案:能否让LLM在推理过程中”记住”新信息,而不需要重新训练?

δ-mem的核心思路

δ-mem的答案是:用delta规则(delta rule)学习一个极小的在线记忆矩阵

具体来说:

1. 8×8的状态矩阵

δ-mem为每一层维护一个仅8×8大小的状态矩阵。这个矩阵充当”短期记忆”,在每次前向传播时根据输入内容动态更新。

2. Delta规则学习

Delta规则是神经网络中最古老的学习规则之一(来自1960年代的感知机)。δ-mem将其重新引入,用于在线更新状态矩阵:当模型处理新信息时,根据预测误差调整矩阵值。

3. 无需梯度更新

与传统的微调不同,δ-mem不需要反向传播和梯度计算。状态矩阵的更新是前向传播的一部分,计算开销极小。

技术细节

δ-mem的实现原理可以用以下步骤概括:

# 伪代码示意
for each input token:
    # 1. 正常的Transformer前向传播
    hidden = transformer_layer(token)
    
    # 2. 用delta规则更新状态矩阵
    prediction = state_matrix @ hidden
    error = target - prediction
    state_matrix += learning_rate * error @ hidden.T
    
    # 3. 将状态信息融合到输出
    output = hidden + state_matrix @ hidden

实验结果

δ-mem在多个基准测试中展示了令人印象深刻的结果:

  • 性能提升:相比冻结权重的基线模型,δ-mem取得了1.10倍的性能提升
  • 计算开销极小:状态矩阵仅8×8,对推理速度几乎没有影响
  • 无需额外训练数据:δ-mem在推理过程中在线学习,不需要额外的训练集

对实际应用的意义

δ-mem虽然目前还是一项研究工作,但它对LLM的实际应用有几个重要启示:

  1. 更高效的个性化:如果δ-mem能够实用化,用户可以让LLM在使用过程中自动”记住”偏好和上下文,而不需要微调
  2. RAG的补充:δ-mem提供了一种轻量级的在线记忆机制,可以与RAG系统互补
  3. 边缘部署:由于计算开销极小,δ-mem特别适合在资源受限的环境中部署

相关工作

δ-mem属于”高效LLM记忆”这一研究方向,相关工作包括:

  • Memorizing Transformers:通过外部KV-cache存储历史信息
  • ∞-former:无限上下文长度的Transformer变体
  • RMT(Recurrent Memory Transformer):通过特殊token实现循环记忆

δ-mem的独特之处在于它的极简性——仅8×8矩阵,无需额外参数,无需梯度更新。

本文参考来源:δ-mem: Efficient Online Memory for LLMs – arXiv:2605.12357

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容