正文
https://arxiv.org/pdf/2505.14464
在大模型能力竞赛持续推进的今天,如何
以更低的训练成本获得更强的推理能力
,成为开源社区面临的核心挑战之一。
相比于 SFT+RL 的训练方式,只用 SFT 意味着着数十倍的成本缩减——也就是说,没有强化学习能力的企业级玩家将 AM-Thinking-v1 蒸馏版拿去直接 SFT 后落地,能够大幅提升应用效率、降低落地成本。
这意味着开源社区未来能以更低的训练成本,获得更强的推理能力。而这项工作成立的前提条件是,需要能有良好的数据源。
换言之,假如数据源能驱动蒸馏模型的成长,那么蒸馏也将不只是一个简简单单的智能“压缩”动作,而是会有潜力成为在开源社区生态中螺旋生长的系统性工程。
蒸馏(Distillation)作为一种低成本、高效率的训练方式,已被广泛用于模型压缩与能力迁移。一般情况下,基于GRPO 或者 PPO 的 RL 训练,但一个被长期忽视的问题是:
你的蒸馏源选对了吗?
a-m-team 近期开源了一套基于 AM-Thinking-v1 和 Qwen3-235B-A22B 两个顶尖大模型生成的推理蒸馏数据集。通过对 189 万条高质量推理任务的并行蒸馏对比分析发现:
-
基于 AM-Thinking-v1 蒸馏训练出的学生模型在多个高难推理任务上接近甚至达到当前最优水平(SOTA);
-
这份开源数据集为低成本构建强推理能力模型提供了扎实支撑;
-
用同样的学生模型、训练配置、benchmark 套件对比训练结果;
-
开源其中两份(AM-Thinking-v1 和 Qwen3-235B-A22B)的数据以供社区验证。
正如本篇论文一语双关的主标题,“Not All Correct Answers Are Equal”——不同的模型,如果生成相似正确的答案,但并不代表他们都有相同的价值。因为基于这个正确答案背后的数据源质量、结构存在差异,自然对后续训练的贡献可能存在显著差异。
a-m-team研究以自家最新发布的AM-Thinking-v1为例,根据其团队研究,以AM-Thinking-v1为教师模型培训出来的纯蒸馏模型,相比于Qwen3-235B-A22和DeepSeek-R1的蒸馏模型在性能上有着显著的领先优势。
不仅如此,AM蒸馏过程中的损失曲线也是最低的,这点其实从图一的评分排列中也可见一斑。如下图所示,AM长期保持了远低于其他模型的基准损耗。
损耗低的背后是 AM 团队本身提供了更适合学习的高质量的数据。
a-m-team 团队对从三个不同的大规模模型 AM-Thinking-v1、Qwen3-235B-A22B和 DeepSeek-R1的训练数据进行了详细分析后,认为这种分数差异来或许自于他们在数据结构上的优势。
首先,
AM
的
token 长度分布更加多样
。
如下图专门展示了数学实例的词元跨度分布情况。结果表明,AM-Thinking-v1 的数学数据呈现出高度分散的分布状态,呈现了更多的短序列。