博士宿舍激情脑暴，革新了Scaling Law？Qwen和浙大联手推出新定律，直接干掉95.5%推理...

AI前线 · 公众号 · AI · 2025-05-21 18:09

主要观点总结

阿里巴巴的研究团队与浙江大学合作提出了一种新的 Scaling Law：并行计算缩放定律（Parallel Scaling Law，简称 ParScale），它能提升大模型的能力并降低训练成本。ParScale 通过在训练和推理阶段引入并行计算，将现成的预训练模型转换为并行缩放模型。该成果论文的第一作者介绍了其核心想法和实现细节。ParScale 的实现包括输入多样化变换、并行处理和动态聚合输出。ParScale 的基本思想是让模型从多个角度回答问题，再通过动态加权融合得出结果。该策略在多个下游基准测试中验证了其有效性，特别是在数学、编程等需要强推理能力的任务中表现显著。ParScale 还适用于资源匮乏的边缘设备，如智能手机、智能汽车和机器人等。目前，相关研究仍在进行中。

关键观点总结

关键观点1: ParScale 是阿里巴巴与浙江大学合作提出的一种新的机器学习模型缩放方法。

该方法在不增加模型参数的情况下提升大模型的能力，且推理效率更高。

关键观点2: ParScale 通过在训练和推理阶段引入并行计算来实现性能提升。

它采用输入多样化变换、并行处理和动态聚合输出的策略，让模型从多个角度回答问题，再通过动态加权融合得出结果。

关键观点3: ParScale 在数学、编程等需要强推理能力的任务中表现显著。

随着并行流值数量 P 的增加，模型在大多数基准测试中的性能也得到提升。

关键观点4: ParScale 适用于资源匮乏的边缘设备，如智能手机、智能汽车和机器人等。

相比参数扩展，ParScale 带来的内存增加和延迟增加更小。

正文

请到「今天看啥」查看全文

CFG 在推理阶段拿到输入 x 时，首先做一次正常的 forward 得到 f(x)；然后再对 x 进行主动的劣化（比如去除条件）变为 x'，再进行一次 forward 得到 f(x')。最终的输出 g(x) 是 f(x) 和 f(x') 的一个加权组合，它的效果比 f(x) 更好，更能遵循输入的条件。这个现象事实上有点反直觉：f(x) 和训练阶段是对齐的，而 g(x) 明显和训练阶段的目标存在 gap。按照常识，只有训练目标和推理目标形式相同，推理才能发挥最大效果。另外，f(x) 的参数量和 g(x) 也是相同的，输入的有效信息量也相同，为什么 f(x) 反而学不到 g(x) 的能力？这说明背后或许存在更深层次的原因。

受到这一启发，Mouxiang Chen 做出一个大胆的猜想：Classifier-Free Guidance（CFG）在推理阶段生效的原因，本质上是用了双倍的并行计算量，它拉大了模型本身的 capacity。

具体到 ParScale 上，其实现包括以下三步：

输入多样化变换：使用"前缀微调"（Prefix Tuning）技术，给每个输入添加 P 个不同的可学习前缀，使模型能从多个视角理解和处理同一任务；
并行处理：将这些输入送入模型的不同路径中并行处理；
动态聚合输出：采用动态加权平均方法，使用可学习的权重对各路径输出进行加权融合，利用 MLP 将来自多个流的输出转换为聚合权重，得到最终结果。

通俗来讲，ParScale 的基本思想，不是让模型对同一个问题反复回答，而是让模型“多角度”进行回答，再通过动态加权融合回答，得出更聪明的答案。

至于 P 有没有上限，仍然是悬而未决的问题，研究人员已将其留作未来工作。“即使有上限，它也和模型的参数有关。模型越大，直觉上提升 P 的收益应该也会越大。”Mouxiang Chen 表示。

在数学、编程等强推理任务中更强

在预训练完成后进入后训练阶段时，研究人员采用了一种新的两阶段后训练策略，来控制因并行流数量 P 增加而导致的训练成本上升：

第一阶段使用 1T token 进行传统训练，采用固定学习率；
第二阶段引入 ParScale 方法，在仅 20B token 的数据上进行微调，使用学习率退火策略。

简单来说，该策略将资源密集型的训练任务集中在第一阶段，而在第二阶段只需少量数据即可完成对并行扩展机制的有效适配，不仅大幅降低了总体训练成本，同时还保留了 ParScale 的性能增益。

为证明了该策略的有效性，研究人员在多个下游基准测试中验证了模型应用 ParScale 后的性能，包括常识、数学和编码方面。