主要观点总结
谷歌提出新的AI架构设计,通过引入注意力偏向和保留门机制来改进Transformer模型,解决了RNN模型的一些问题。新模型Moneta、Yaad和Memora在多个任务上超越了现有模型。新架构参数减少40%,训练速度提升,并提供了明确的记忆架构、注意力偏向、保留门控和记忆学习算法等关键设计维度。论文详细描述了新模型的理论背景、设计思路、实验过程和结果。
关键观点总结
关键观点1: 新的AI架构设计引入注意力偏向和保留门机制,旨在改进Transformer模型。
该设计解决了RNN模型的一些问题,提供了统一的框架Miras,包含记忆架构、注意力偏向、保留门控和记忆学习算法等关键设计维度。
关键观点2: 新模型Moneta、Yaad和Memora在多个任务上超越了现有模型。
这些新模型在语言建模、常识推理、发现罕见事实和长文本建模等任务中表现优异,并优于现有最强模型。
关键观点3: 新架构参数减少40%,训练速度提升。
新模型在实验中展示了良好的性能,包括参数减少和训练速度的提升。此外,新模型还具有更强的扩展能力,能够在不同的模型大小和上下文窗口下保持良好的性能。
关键观点4: 论文提供了详细的实验过程和结果。
论文通过大量的实验验证了新模型的有效性,并提供了与其他基准模型的比较。实验结果证明了新模型在各种任务上的优越性。
正文
研究人员不再用「遗忘」(forget)这个词,而是提出了「保留」(retention)的概念。
因此,「遗忘门」(forget gate)也就变成了「保留门」(retention gate)。
模型并不会真的清除过去的记忆——
它只是选择对某些信息不那么「上心」而已。
此外,研究人员提供了一套全新的替代保留门控(忘记门)用于序列模型,带来了新的洞察,帮助平衡学习新概念和保留先前学到的概念。
现有的深度学习架构中的
遗忘机制,可以重新解释为一种针对注意力偏向的ℓ₂正则化
。
比如,softmax注意力
是
Miras
的一个实例,利用Nadaraya-Watson估计器找到MSE损失的非参数解时,无需保留项。
论文链接:https://arxiv.org/abs/2407.04620
实际上,这次谷歌团队发现
大多数现有模型
(如Transformer、RetNet、Mamba等)都采用了类似的注意力偏向目标,即尝试
最小化键值对之间的
ℓ₂ 范数(
均方误差
)
。
但
它存在几个问题
:
-
对异常值敏感
:极端或错误输入可能严重干扰记忆更新
-
不支持可调节的保留策略
:不同任务/token 重要性不同,不能一视同仁
-
无法应对复杂上下文需求
:长文档、多语义层、跨段落推理等任务对注意力机制要求更高
表1:基于Miras框架视角的近期
序列模型
概览
基于关联记忆概念的神经架构设计,被转化为学习键值之间的基本映射,可以利用最小化目标函数L来实现:
为了求解上述优化问题,最简单的方法就是利用梯度下降。
具体来说,给定一对新的键值对,可以通过以下方式更新记忆(一下叫做更新方程):
这一公式可以被重新解释为一种瞬时惊讶度度量,其中模型记忆那些违反目标预期的token。
更新方程可以看作是在线梯度下降的一步,涉及损失函数序列的优化:
众所周知,在线梯度下降可以被视为
跟踪正则化领导者(Follow-The-Regularized-Leader, FTRL)
算法的一个特例。
这其实对应于某些特定选择的损失函数。
具体来说,假设
W₀ = 0
,则更新方程中的更新规则等价于下列方程(以后称为二次更新方程):
以上方程使用了损失函数的线性近似和二次正则化。
然而,从原则上讲,也可以使用
其他
损失
函数的近似以及其他正则化函数