主要观点总结
阿里巴巴的研究团队与浙江大学合作提出了一种新的 Scaling Law:并行计算缩放定律(Parallel Scaling Law,简称 ParScale),它能提升大模型的能力并降低训练成本。ParScale 通过在训练和推理阶段引入并行计算,将现成的预训练模型转换为并行缩放模型。该成果论文的第一作者介绍了其核心想法和实现细节。ParScale 的实现包括输入多样化变换、并行处理和动态聚合输出。ParScale 的基本思想是让模型从多个角度回答问题,再通过动态加权融合得出结果。该策略在多个下游基准测试中验证了其有效性,特别是在数学、编程等需要强推理能力的任务中表现显著。ParScale 还适用于资源匮乏的边缘设备,如智能手机、智能汽车和机器人等。目前,相关研究仍在进行中。
关键观点总结
关键观点1: ParScale 是阿里巴巴与浙江大学合作提出的一种新的机器学习模型缩放方法。
该方法在不增加模型参数的情况下提升大模型的能力,且推理效率更高。
关键观点2: ParScale 通过在训练和推理阶段引入并行计算来实现性能提升。
它采用输入多样化变换、并行处理和动态聚合输出的策略,让模型从多个角度回答问题,再通过动态加权融合得出结果。
关键观点3: ParScale 在数学、编程等需要强推理能力的任务中表现显著。
随着并行流值数量 P 的增加,模型在大多数基准测试中的性能也得到提升。
关键观点4: ParScale 适用于资源匮乏的边缘设备,如智能手机、智能汽车和机器人等。
相比参数扩展,ParScale 带来的内存增加和延迟增加更小。
正文
CFG 在推理阶段拿到输入 x 时,首先做一次正常的 forward 得到 f(x);然后再对 x 进行主动的劣化(比如去除条件)变为 x',再进行一次 forward 得到 f(x')。最终的输出 g(x) 是 f(x) 和 f(x') 的一个加权组合,它的效果比 f(x) 更好,更能遵循输入的条件。这个现象事实上有点反直觉:f(x) 和训练阶段是对齐的,而 g(x) 明显和训练阶段的目标存在 gap。按照常识,只有训练目标和推理目标形式相同,推理才能发挥最大效果。另外,f(x) 的参数量和 g(x) 也是相同的,输入的有效信息量也相同,为什么 f(x) 反而学不到 g(x) 的能力?这说明背后或许存在更深层次的原因。
受到这一启发,Mouxiang Chen 做出一个大胆的猜想:Classifier-Free Guidance(CFG)在推理阶段生效的原因,本质上是用了双倍的并行计算量,它拉大了模型本身的 capacity。
具体到 ParScale 上,其实现包括以下三步:
-
输入多样化变换 :使用"前缀微调"(Prefix Tuning)技术,给每个输入添加 P 个不同的可学习前缀,使模型能从多个视角理解和处理同一任务;
-
并行处理 :将这些输入送入模型的不同路径中并行处理;
-
动态聚合输出 :采用动态加权平均方法,使用可学习的权重对各路径输出进行加权融合,利用 MLP 将来自多个流的输出转换为聚合权重,得到最终结果。
通俗来讲,ParScale 的基本思想,不是让模型对同一个问题反复回答,而是让模型“多角度”进行回答,再通过动态加权融合回答,得出更聪明的答案。
至于 P 有没有上限,仍然是悬而未决的问题,研究人员已将其留作未来工作。“即使有上限,它也和模型的参数有关。模型越大,直觉上提升 P 的收益应该也会越大。”Mouxiang Chen 表示。
在预训练完成后进入后训练阶段时,研究人员采用了一种新的两阶段后训练策略,来控制因并行流数量 P 增加而导致的训练成本上升:
简单来说,该策略将资源密集型的训练任务集中在第一阶段,而在第二阶段只需少量数据即可完成对并行扩展机制的有效适配,不仅大幅降低了总体训练成本,同时还保留了 ParScale 的性能增益。
为证明了该策略的有效性,研究人员在多个下游基准测试中验证了模型应用 ParScale 后的性能,包括常识、数学和编码方面。