专栏名称: 腾讯科技
只供应最有营养的科技大餐!
目录
相关文章推荐
51好读  ›  专栏  ›  腾讯科技

DeepSeek-R1后又一推理训练里程碑:用递归重构Transformer

腾讯科技  · 公众号  · 科技媒体  · 2025-02-28 14:50

正文

请到「今天看啥」查看全文


(整个Diffusion过程就是疯狂递归)
而研究人员这次也把递归这个结构引入了Transformer架构。
如果说扩散模型是通过多步去噪来精炼图像细节,那么这个新架构则是通过反复计算来提炼推理结果。就像扩散模型能够通过迭代生成越来越清晰的图像一样,这个模型能够通过重复计算来增强其推理能力。
传统Transformer架构是一个前馈式的计算图:每一层的计算只发生一次,从输入到输出是一个确定的路径。每个参数只参与一次计算。这种设计使得模型的计算深度完全由层数决定,要增加计算深度就必须增加参数量。
(这是一层,然后有一堆这种层)
这就像一条高速公路。信息从起点开始,经过预设的路线,直接到达终点。这条路可能会很长(更多的层),但每个路段只会经过一次。要让模型变得更强大,就需要修建更多的路段,这意味着更多的成本。
而研究团队新提出的递归深度架构打破了这种一次性计算的限制。它在Transformer的基础上引入了一个核心创新:允许同一组参数被重复使用。
这就是信息不是简单地从A走到B,而是可以在同一个跑道上反复奔跑。关键是,这个跑道的长度(模型大小)并没有改变,改变的是可以在上面跑多少圈(思考的深度)。
这个被重复使用的参数组被研究人员称为循环核心,它为一个仅为4层的神经网络。
整个新Transformer的架构整体被研究人员分成预奏-核心-尾声"(Prelude-Core-Coda)三个部分。
预奏和尾声就相当于编码器和解码器。预奏"(Prelude)层的工作就像是一个翻译官,将输入的文本转换成一种特殊的"潜在空间"表示。最后的"尾声"(Coda)层负责将模型的思考结果转换回人类可以理解的形式。它们都仅有两层神经网络。
也就是说这个模型本身只有8层神经网络,对比之下ChatGPT 3.5有96层神经网络。
结构相当简单粗暴,但这是继Titans之后,对Transfomer做的最大胆的一次变革。
我们再来深入看看这个核心是怎么工作的。
我们可以把循环核心块比作一个大脑。当它开始工作时,首先会从一个随机的思维状态,即初始状态s0。这个状态就像你刚睡醒时还有点迷糊的大脑。接着,它会拿到经过前奏(Prelude)处理的问题信息,比如"2+3=?"这个算术题。
在每一轮思考(也就是每次迭代)中,这个"大脑"会做三件主要的事:
它会通过自注意力机制整理当前的思维状态,就像你在整理自己的思路;通过交叉注意力机制,它会将问题信息"2+3"和当前的思维状态结合起来,就像你在把问题和已有的理解联系在一起;通过一个前馈网络进行深入处理,就像你在对已经理解的内容进行推理。
每一轮思考都会产生一个"状态"(state)。这个状态可以理解为模型当前对问题的理解程度。 而在下一轮思考时,模型是接受之前的问题和前一状态,通过adapter矩阵将它们连接起来。这样每轮新的思考不是独立的,这就像你在累积对问题的理解。
而这个思考过程会反复进行。比如解一道数学证明题,可能需要十几二十轮的深入思考才能得到完整的解答。
而它在这个反复过程中,这个模型展示出了和DeepSeek R1一样的"思考时间的自适应性"。比如对于"15+7"这样的简单计算,模型平均只需要3-4次迭代就能得出答案。而面对"如果8个工人6天完成一项工作,那么12个工人完成同样的工作需要几天?"这样的问题时,迭代次数会自动增加到8-10次。
(此图表示:模型在简单的任务如OpenBookQA中,很快就能收敛;而在复杂的任务如GSM8K需要更多的迭代次数;ARC challenge也需要较深的计算深度)
这说明,模型很有可能确实展现出了深度推理思考的特征——它知道什么题该认真想。
而且这种能力是模型在训练时就自然获得的。这个模型的整个训练过程中只有最常规的预训练和指令微调、对话微调。完全没有CoT这样特定的示例,也没有RL那样的奖励机制和采样策略,甚至连RHLF都没有。训练模式比ChatGPT时代还简单。






请到「今天看啥」查看全文