专栏名称: DASOU
一名算法工程师,分享工作日常和AI干货,专注深度学习。
目录
相关文章推荐
道問丨Ziri  ·  【版本篇】问道06月12日全区组1.793版 ... ·  5 小时前  
道問丨Ziri  ·  【版本篇】问道06月12日全区组1.793版 ... ·  5 小时前  
花果科技  ·  苹果发布 iOS 26,全新设计太好看了! ·  2 天前  
花果科技  ·  苹果发布 iOS 26,全新设计太好看了! ·  2 天前  
51好读  ›  专栏  ›  DASOU

清华姚班校友爆改Transformer!!

DASOU  · 公众号  · 科技自媒体 科技创业  · 2025-06-07 16:59

主要观点总结

谷歌提出新的AI架构设计,通过引入注意力偏向和保留门机制来改进Transformer模型,解决了RNN模型的一些问题。新模型Moneta、Yaad和Memora在多个任务上超越了现有模型。新架构参数减少40%,训练速度提升,并提供了明确的记忆架构、注意力偏向、保留门控和记忆学习算法等关键设计维度。论文详细描述了新模型的理论背景、设计思路、实验过程和结果。

关键观点总结

关键观点1: 新的AI架构设计引入注意力偏向和保留门机制,旨在改进Transformer模型。

该设计解决了RNN模型的一些问题,提供了统一的框架Miras,包含记忆架构、注意力偏向、保留门控和记忆学习算法等关键设计维度。

关键观点2: 新模型Moneta、Yaad和Memora在多个任务上超越了现有模型。

这些新模型在语言建模、常识推理、发现罕见事实和长文本建模等任务中表现优异,并优于现有最强模型。

关键观点3: 新架构参数减少40%,训练速度提升。

新模型在实验中展示了良好的性能,包括参数减少和训练速度的提升。此外,新模型还具有更强的扩展能力,能够在不同的模型大小和上下文窗口下保持良好的性能。

关键观点4: 论文提供了详细的实验过程和结果。

论文通过大量的实验验证了新模型的有效性,并提供了与其他基准模型的比较。实验结果证明了新模型在各种任务上的优越性。


正文

请到「今天看啥」查看全文


研究人员不再用「遗忘」(forget)这个词,而是提出了「保留」(retention)的概念。

因此,「遗忘门」(forget gate)也就变成了「保留门」(retention gate)。

模型并不会真的清除过去的记忆——


它只是选择对某些信息不那么「上心」而已。

此外,研究人员提供了一套全新的替代保留门控(忘记门)用于序列模型,带来了新的洞察,帮助平衡学习新概念和保留先前学到的概念。

现有的深度学习架构中的 遗忘机制,可以重新解释为一种针对注意力偏向的ℓ₂正则化

比如,softmax注意力 Miras 的一个实例,利用Nadaraya-Watson估计器找到MSE损失的非参数解时,无需保留项。

论文链接:https://arxiv.org/abs/2407.04620

实际上,这次谷歌团队发现 大多数现有模型 (如Transformer、RetNet、Mamba等)都采用了类似的注意力偏向目标,即尝试 最小化键值对之间的 ℓ₂ 范数( 均方误差

它存在几个问题

  • 对异常值敏感 :极端或错误输入可能严重干扰记忆更新

  • 不支持可调节的保留策略 :不同任务/token 重要性不同,不能一视同仁

  • 无法应对复杂上下文需求 :长文档、多语义层、跨段落推理等任务对注意力机制要求更高

表1:基于Miras框架视角的近期 序列模型 概览

目标函数:注意力偏向策略

基于关联记忆概念的神经架构设计,被转化为学习键值之间的基本映射,可以利用最小化目标函数L来实现:

为了求解上述优化问题,最简单的方法就是利用梯度下降。

具体来说,给定一对新的键值对,可以通过以下方式更新记忆(一下叫做更新方程):

这一公式可以被重新解释为一种瞬时惊讶度度量,其中模型记忆那些违反目标预期的token。

更新方程可以看作是在线梯度下降的一步,涉及损失函数序列的优化:

众所周知,在线梯度下降可以被视为 跟踪正则化领导者(Follow-The-Regularized-Leader, FTRL) 算法的一个特例。

这其实对应于某些特定选择的损失函数。

具体来说,假设 W₀ = 0 ,则更新方程中的更新规则等价于下列方程(以后称为二次更新方程):

以上方程使用了损失函数的线性近似和二次正则化。

然而,从原则上讲,也可以使用 其他 损失 函数的近似以及其他正则化函数







请到「今天看啥」查看全文


推荐文章
肿瘤资讯  ·  2017年结直肠癌免疫治疗研讨会
7 年前
实验万事屋  ·  颜色对人情绪的影响
7 年前