纯蒸馏模型 SOTA 出现！直接 SFT 成本直降 50 倍，数据已全部开源

AI科技评论 · 公众号 · · 2025-05-21 16:56

正文

https://arxiv.org/pdf/2505.14464

在大模型能力竞赛持续推进的今天，如何 以更低的训练成本获得更强的推理能力 ，成为开源社区面临的核心挑战之一。

相比于 SFT+RL 的训练方式，只用 SFT 意味着着数十倍的成本缩减——也就是说，没有强化学习能力的企业级玩家将 AM-Thinking-v1 蒸馏版拿去直接 SFT 后落地，能够大幅提升应用效率、降低落地成本。

这意味着开源社区未来能以更低的训练成本，获得更强的推理能力。而这项工作成立的前提条件是，需要能有良好的数据源。

换言之，假如数据源能驱动蒸馏模型的成长，那么蒸馏也将不只是一个简简单单的智能“压缩”动作，而是会有潜力成为在开源社区生态中螺旋生长的系统性工程。

什么样的数据源更有效？

蒸馏（Distillation）作为一种低成本、高效率的训练方式，已被广泛用于模型压缩与能力迁移。一般情况下，基于GRPO 或者 PPO 的 RL 训练，但一个被长期忽视的问题是： 你的蒸馏源选对了吗？

a-m-team 近期开源了一套基于 AM-Thinking-v1 和 Qwen3-235B-A22B 两个顶尖大模型生成的推理蒸馏数据集。通过对 189 万条高质量推理任务的并行蒸馏对比分析发现：

正如本篇论文一语双关的主标题，“Not All Correct Answers Are Equal”——不同的模型，如果生成相似正确的答案，但并不代表他们都有相同的价值。因为基于这个正确答案背后的数据源质量、结构存在差异，自然对后续训练的贡献可能存在显著差异。

a-m-team研究以自家最新发布的AM-Thinking-v1为例，根据其团队研究，以AM-Thinking-v1为教师模型培训出来的纯蒸馏模型，相比于Qwen3-235B-A22和DeepSeek-R1的蒸馏模型在性能上有着显著的领先优势。

不仅如此，AM蒸馏过程中的损失曲线也是最低的，这点其实从图一的评分排列中也可见一斑。如下图所示，AM长期保持了远低于其他模型的基准损耗。

损耗低的背后是 AM 团队本身提供了更适合学习的高质量的数据。

a-m-team 团队对从三个不同的大规模模型 AM-Thinking-v1、Qwen3-235B-A22B和 DeepSeek-R1的训练数据进行了详细分析后，认为这种分数差异来或许自于他们在数据结构上的优势。

首先， AM 的 token 长度分布更加多样 。

如下图专门展示了数学实例的词元跨度分布情况。结果表明，AM-Thinking-v1 的数学数据呈现出高度分散的分布状态，呈现了更多的短序列。