专栏名称: DASOU

一名算法工程师，分享工作日常和AI干货，专注深度学习。

目录

相关文章推荐

安徽省人民政府网 · 使用寿命超18万小时！中国科大突破这一技术瓶颈 · 18 小时前

安徽省人民政府网 · 使用寿命超18万小时！中国科大突破这一技术瓶颈 · 18 小时前

深圳新闻网 · 停业、停运！多景区关闭！紧急提醒→ · 昨天

深圳新闻网 · 停业、停运！多景区关闭！紧急提醒→ · 昨天

科技晶选 · 【华西计算机】2025中期策略报告：25年H ... · 昨天

科技晶选 · 【华西计算机】2025中期策略报告：25年H ... · 昨天

Java仓库 · AI 工具，永久免费了 · 昨天

Java仓库 · AI 工具，永久免费了 · 昨天

中国财富 · 突然大涨！腾讯音乐、喜马拉雅大动作 · 2 天前

中国财富 · 突然大涨！腾讯音乐、喜马拉雅大动作 · 2 天前

51好读 › 专栏 › DASOU

清华姚班校友爆改Transformer！！

DASOU · 公众号 · 科技自媒体科技创业 · 2025-06-07 16:59

主要观点总结

谷歌提出新的AI架构设计，通过引入注意力偏向和保留门机制来改进Transformer模型，解决了RNN模型的一些问题。新模型Moneta、Yaad和Memora在多个任务上超越了现有模型。新架构参数减少40%，训练速度提升，并提供了明确的记忆架构、注意力偏向、保留门控和记忆学习算法等关键设计维度。论文详细描述了新模型的理论背景、设计思路、实验过程和结果。

关键观点总结

关键观点1: 新的AI架构设计引入注意力偏向和保留门机制，旨在改进Transformer模型。

该设计解决了RNN模型的一些问题，提供了统一的框架Miras，包含记忆架构、注意力偏向、保留门控和记忆学习算法等关键设计维度。

关键观点2: 新模型Moneta、Yaad和Memora在多个任务上超越了现有模型。

这些新模型在语言建模、常识推理、发现罕见事实和长文本建模等任务中表现优异，并优于现有最强模型。

关键观点3: 新架构参数减少40%，训练速度提升。

新模型在实验中展示了良好的性能，包括参数减少和训练速度的提升。此外，新模型还具有更强的扩展能力，能够在不同的模型大小和上下文窗口下保持良好的性能。

关键观点4: 论文提供了详细的实验过程和结果。

论文通过大量的实验验证了新模型的有效性，并提供了与其他基准模型的比较。实验结果证明了新模型在各种任务上的优越性。

正文

请到「今天看啥」查看全文

研究人员不再用「遗忘」（forget）这个词，而是提出了「保留」（retention）的概念。

因此，「遗忘门」（forget gate）也就变成了「保留门」（retention gate）。

模型并不会真的清除过去的记忆——

它只是选择对某些信息不那么「上心」而已。

此外，研究人员提供了一套全新的替代保留门控（忘记门）用于序列模型，带来了新的洞察，帮助平衡学习新概念和保留先前学到的概念。

现有的深度学习架构中的遗忘机制，可以重新解释为一种针对注意力偏向的ℓ₂正则化。

比如，softmax注意力 是 Miras 的一个实例，利用Nadaraya-Watson估计器找到MSE损失的非参数解时，无需保留项。

论文链接：https://arxiv.org/abs/2407.04620

实际上，这次谷歌团队发现大多数现有模型（如Transformer、RetNet、Mamba等）都采用了类似的注意力偏向目标，即尝试最小化键值对之间的 ℓ₂ 范数（ 均方误差 ）。

但它存在几个问题：

对异常值敏感 ：极端或错误输入可能严重干扰记忆更新
不支持可调节的保留策略 ：不同任务/token 重要性不同，不能一视同仁
无法应对复杂上下文需求 ：长文档、多语义层、跨段落推理等任务对注意力机制要求更高

表1：基于Miras框架视角的近期序列模型概览

目标函数：注意力偏向策略

基于关联记忆概念的神经架构设计，被转化为学习键值之间的基本映射，可以利用最小化目标函数L来实现:

为了求解上述优化问题，最简单的方法就是利用梯度下降。

具体来说，给定一对新的键值对，可以通过以下方式更新记忆（一下叫做更新方程）：

这一公式可以被重新解释为一种瞬时惊讶度度量，其中模型记忆那些违反目标预期的token。

更新方程可以看作是在线梯度下降的一步，涉及损失函数序列的优化：

众所周知，在线梯度下降可以被视为 跟踪正则化领导者（Follow-The-Regularized-Leader, FTRL） 算法的一个特例。

这其实对应于某些特定选择的损失函数。

具体来说，假设 W₀ = 0 ，则更新方程中的更新规则等价于下列方程（以后称为二次更新方程）：

以上方程使用了损失函数的线性近似和二次正则化。

然而，从原则上讲，也可以使用其他损失 函数的近似以及其他正则化函数

请到「今天看啥」查看全文

推荐文章

安徽省人民政府网 · 使用寿命超18万小时！中国科大突破这一技术瓶颈

18 小时前

安徽省人民政府网 · 使用寿命超18万小时！中国科大突破这一技术瓶颈

18 小时前

深圳新闻网 · 停业、停运！多景区关闭！紧急提醒→

昨天

深圳新闻网 · 停业、停运！多景区关闭！紧急提醒→

昨天

科技晶选 · 【华西计算机】2025中期策略报告：25年H2重点：AI与稳定币

昨天

科技晶选 · 【华西计算机】2025中期策略报告：25年H2重点：AI与稳定币

昨天

Java仓库 · AI 工具，永久免费了

昨天

Java仓库 · AI 工具，永久免费了

昨天

中国财富 · 突然大涨！腾讯音乐、喜马拉雅大动作

2 天前

中国财富 · 突然大涨！腾讯音乐、喜马拉雅大动作

2 天前

迷彩虎 · 蒋介石竟亲眼目睹真龙，只因他做了这件伤天害理的事儿！

8 年前

债券圈 · 那帮“搞债的”投行狗：中介狗之审计狗

7 年前

本心花开 · 曾国藩：人才都是熬出来的，本事都是逼出来的

7 年前

悦智网 · 仿真分析确保新鲜农产品的食品安全

7 年前

数据局 · 艾媒咨询：2017Q1中国手机安全市场研究报告

7 年前

移动版

51好读 - 微信公众号文章