δ-mem：用8×8矩阵给大语言模型加上"在线记忆"的轻量方案

2026年5月，一篇名为δ-mem的论文在arXiv上发表，提出了一种极简的大语言模型在线记忆机制。仅用一个8×8的状态矩阵，就能让预训练LLM在不更新权重的情况下持续学习新信息，在多个基准测试中取得了1.10倍的性能提升。

背景：LLM的”记忆”问题

大语言模型（LLM）有一个根本性的限制：它们的知识在训练完成后就固定了。虽然RAG（检索增强生成）可以通过外部知识库补充信息，但每次都检索既慢又不优雅。

研究人员一直在探索一种更高效的方案：能否让LLM在推理过程中”记住”新信息，而不需要重新训练？

δ-mem的核心思路

δ-mem的答案是：用delta规则（delta rule）学习一个极小的在线记忆矩阵。

具体来说：

1. 8×8的状态矩阵

δ-mem为每一层维护一个仅8×8大小的状态矩阵。这个矩阵充当”短期记忆”，在每次前向传播时根据输入内容动态更新。

2. Delta规则学习

Delta规则是神经网络中最古老的学习规则之一（来自1960年代的感知机）。δ-mem将其重新引入，用于在线更新状态矩阵：当模型处理新信息时，根据预测误差调整矩阵值。

3. 无需梯度更新

与传统的微调不同，δ-mem不需要反向传播和梯度计算。状态矩阵的更新是前向传播的一部分，计算开销极小。

技术细节

δ-mem的实现原理可以用以下步骤概括：

# 伪代码示意
for each input token:
    # 1. 正常的Transformer前向传播
    hidden = transformer_layer(token)
    
    # 2. 用delta规则更新状态矩阵
    prediction = state_matrix @ hidden
    error = target - prediction
    state_matrix += learning_rate * error @ hidden.T
    
    # 3. 将状态信息融合到输出
    output = hidden + state_matrix @ hidden