专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

去中心化训练更进一步，全球首个分布式强化学习训练的320亿参数模型发布

DeepTech深科技 · 公众号 · 科技媒体 · 2025-05-14 21:46

主要观点总结

Prime Intellect团队发布了全球首个去中心化训练的320亿参数规模的推理模型INTELLECT-2。该模型采用完全异步的强化学习范式，在由全球贡献者组成的动态、异构且无需许可的计算网络中成功训练。文章介绍了其设计思路、技术实现和取得的成果，并指出其对于AI民主化和开源发展的重要意义。

关键观点总结

关键观点1: 全球首个去中心化训练的推理模型发布

介绍了Prime Intellect团队发布的全球首个去中心化训练的推理模型INTELLECT-2，它是全球首个通过完全异步的强化学习范式训练出来的模型。

关键观点2: 技术实现与特点

描述了INTELLECT-2的技术实现，包括其专为全球分布式、异步强化学习设计的技术栈，以及采用的关键技术和工具，如DiLoCo框架、OpenDiLoCo、PRIME-RL等。

关键观点3: 模型训练与实验

介绍了模型的训练过程，包括训练数据集、训练方法、训练过程中的挑战以及应对策略等。同时，通过实验结果展示了模型在解决数学和编码问题上的能力。

关键观点4: 模型的应用与意义

阐述了INTELLECT-2模型对于AI的民主化和开源发展的重要意义，以及其在资本市场上的反响和未来的发展前景。

关键观点5: 未来计划与挑战

介绍了Prime Intellect团队未来的计划，包括提高推理与训练的计算比率、为推理模型引入工具调用能力、推动众包RL任务和环境建设等，同时也指出了未来面临的挑战。

正文

请到「今天看啥」查看全文

TOPLOC （局部敏感哈希的无信任可验证推理方案）和 Prime Intellect 协议。

TOPLOC 允许受信任的验证者节点高效审计推理节点生成的加密承诺，确保其计算的正确性，并通过采样检查（如终止检查、令牌采样检查）和健全性检查（如固定数据采样、值范围检查）进一步保障数据质量。

Prime Intellect 协议则扮演了整个去中心化网络的“大脑”，通过 Rust 实现的去中心化账本、工作者软件、发现服务和协调器，实现了对节点的自动注册、硬件检查、心跳监控、任务调度与分发（采用拉取模式）、以及贡献记录等功能，构建了一个类似于去中心化 SLURM 的系统，有效协调全球计算资源。

受益于 Qwen 和 DeepSeek 的模型训练

INTELLECT-2 的训练基于 QwQ-32B 模型，并很大程度上遵循了 DeepSeek-R1 的 GRPO（Group Relative Policy Optimization）训练方法，但进行了多项关键修改。

训练始于一个包含 28.5 万个可验证数学与编码任务的数据集（来自 NuminaMath-1.5、Deepscaler 和 SYNTHETIC-1）。它采用双重目标：二元任务奖励（正确为 1，错误为 0）和长度奖励，后者使用户能够在推理时控制“思考令牌”的数量。这种设计允许模型学习在解决数学和编码问题的同时，根据用户指定的思考长度控制其推理过程，提供了灵活性和可控性。

为了适应去中心化环境并提高效率，训练采用了多步异步强化学习。实验表明，即使存在多达四步的异步延迟，模型性能也能与同步基线持平，证明了在轻微离策略数据上训练的有效性。数据过滤在其中发挥了重要作用，团队结合了离线过滤（预先筛选掉对基模型而言过易或过难的问题）和在线过滤（确保训练批次中包含足够数量的具有非零优势值的样本），这不仅提升了学习效率，也间接增加了对去中心化推理节点的需求。

图丨同步、集中式单步异步和去中心化两步异步强化学习的比较（来源：Prime Intellect）

为了应对训练过程中（尤其是训练大型模型时）常见的损失尖峰和梯度爆炸等不稳定性问题，团队引入了双边令牌概率比率裁剪（Two-Sided GRPO Clipping）机制，为负优势情况下的概率比率添加上界，显著缓解了传统 PPO 类算法中可能出现的巨大损失值和梯度更新问题。

团队还观察到，随着训练进行，即使在没有立即尖峰的情况下，梯度范数也会逐渐但持续增加。这种现象似乎与模型大小相关，在更大的架构中更为明显。他们发现，采用激进的梯度裁剪（阈值低至 0.05-0.1）能有效缓解稳定性问题，而不显著阻碍收敛，在稳定性和训练效率之间取得了平衡。

图丨在 MATH 数据集上训练的不同模型规模的梯度范数和裁剪率不断上升（来源：Prime Intellect）

那么这种训练的效率究竟如何呢？团队采用两种设置进行了实验：

TARGET-SHORT：使用较短目标长度（1000、2000、3000、4000）训练高效推理模型

TARGET-LONG：使用较长目标长度（2000、4000、6000、8000、10000）的主要运行

在计算利用率方面，SHARDCAST 向所有节点广播权重（62GB）平均耗时 14 分钟，对应约 590Mb/s 的带宽吞吐量。连接性好的节点能更早收到检查点并开始生成数据。

在 TARGET-SHORT 设置中，首个数据文件在广播完成约 10 分钟后提交，由于 TOPLOC 的高效验证（通常 1 分钟内完成），约 22 分钟后即可收集到足够用于一个批次的已验证样本。