专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
目录
相关文章推荐
AI前线  ·  小扎疯狂挖角 ... ·  16 小时前  
机器之心  ·  刚刚,Gemini ... ·  21 小时前  
爱可可-爱生活  ·  晚安~ #晚安# -20250617223704 ·  昨天  
爱可可-爱生活  ·  【[530星]Roo ... ·  2 天前  
51好读  ›  专栏  ›  AI前线

博士宿舍激情脑暴,革新了Scaling Law?Qwen和浙大联手推出新定律,直接干掉95.5%推理...

AI前线  · 公众号  · AI  · 2025-05-21 18:09

主要观点总结

阿里巴巴的研究团队与浙江大学合作提出了一种新的 Scaling Law:并行计算缩放定律(Parallel Scaling Law,简称 ParScale),它能提升大模型的能力并降低训练成本。ParScale 通过在训练和推理阶段引入并行计算,将现成的预训练模型转换为并行缩放模型。该成果论文的第一作者介绍了其核心想法和实现细节。ParScale 的实现包括输入多样化变换、并行处理和动态聚合输出。ParScale 的基本思想是让模型从多个角度回答问题,再通过动态加权融合得出结果。该策略在多个下游基准测试中验证了其有效性,特别是在数学、编程等需要强推理能力的任务中表现显著。ParScale 还适用于资源匮乏的边缘设备,如智能手机、智能汽车和机器人等。目前,相关研究仍在进行中。

关键观点总结

关键观点1: ParScale 是阿里巴巴与浙江大学合作提出的一种新的机器学习模型缩放方法。

该方法在不增加模型参数的情况下提升大模型的能力,且推理效率更高。

关键观点2: ParScale 通过在训练和推理阶段引入并行计算来实现性能提升。

它采用输入多样化变换、并行处理和动态聚合输出的策略,让模型从多个角度回答问题,再通过动态加权融合得出结果。

关键观点3: ParScale 在数学、编程等需要强推理能力的任务中表现显著。

随着并行流值数量 P 的增加,模型在大多数基准测试中的性能也得到提升。

关键观点4: ParScale 适用于资源匮乏的边缘设备,如智能手机、智能汽车和机器人等。

相比参数扩展,ParScale 带来的内存增加和延迟增加更小。


正文

请到「今天看啥」查看全文







CFG 在推理阶段拿到输入 x 时,首先做一次正常的 forward 得到 f(x);然后再对 x 进行主动的劣化(比如去除条件)变为 x',再进行一次 forward 得到 f(x')。最终的输出 g(x) 是 f(x) 和 f(x') 的一个加权组合,它的效果比 f(x) 更好,更能遵循输入的条件。这个现象事实上有点反直觉:f(x) 和训练阶段是对齐的,而 g(x) 明显和训练阶段的目标存在 gap。按照常识,只有训练目标和推理目标形式相同,推理才能发挥最大效果。另外,f(x) 的参数量和 g(x) 也是相同的,输入的有效信息量也相同,为什么 f(x) 反而学不到 g(x) 的能力?这说明背后或许存在更深层次的原因。

受到这一启发,Mouxiang Chen 做出一个大胆的猜想:Classifier-Free Guidance(CFG)在推理阶段生效的原因,本质上是用了双倍的并行计算量,它拉大了模型本身的 capacity。

具体到 ParScale 上,其实现包括以下三步:

  • 输入多样化变换 :使用"前缀微调"(Prefix Tuning)技术,给每个输入添加 P 个不同的可学习前缀,使模型能从多个视角理解和处理同一任务;

  • 并行处理 :将这些输入送入模型的不同路径中并行处理;

  • 动态聚合输出 :采用动态加权平均方法,使用可学习的权重对各路径输出进行加权融合,利用 MLP 将来自多个流的输出转换为聚合权重,得到最终结果。

通俗来讲,ParScale 的基本思想,不是让模型对同一个问题反复回答,而是让模型“多角度”进行回答,再通过动态加权融合回答,得出更聪明的答案。

至于 P 有没有上限,仍然是悬而未决的问题,研究人员已将其留作未来工作。“即使有上限,它也和模型的参数有关。模型越大,直觉上提升 P 的收益应该也会越大。”Mouxiang Chen 表示。

在数学、编程等强推理任务中更强

在预训练完成后进入后训练阶段时,研究人员采用了一种新的两阶段后训练策略,来控制因并行流数量 P 增加而导致的训练成本上升:

  • 第一阶段使用 1T token 进行传统训练,采用固定学习率;

  • 第二阶段引入 ParScale 方法,在仅 20B token 的数据上进行微调,使用学习率退火策略。

简单来说,该策略将资源密集型的训练任务集中在第一阶段,而在第二阶段只需少量数据即可完成对并行扩展机制的有效适配,不仅大幅降低了总体训练成本,同时还保留了 ParScale 的性能增益。

为证明了该策略的有效性,研究人员在多个下游基准测试中验证了模型应用 ParScale 后的性能,包括常识、数学和编码方面。







请到「今天看啥」查看全文