专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
相关文章推荐
51好读  ›  专栏  ›  DeepTech深科技

去中心化训练更进一步,全球首个分布式强化学习训练的320亿参数模型发布

DeepTech深科技  · 公众号  · 科技媒体  · 2025-05-14 21:46

主要观点总结

Prime Intellect团队发布了全球首个去中心化训练的320亿参数规模的推理模型INTELLECT-2。该模型采用完全异步的强化学习范式,在由全球贡献者组成的动态、异构且无需许可的计算网络中成功训练。文章介绍了其设计思路、技术实现和取得的成果,并指出其对于AI民主化和开源发展的重要意义。

关键观点总结

关键观点1: 全球首个去中心化训练的推理模型发布

介绍了Prime Intellect团队发布的全球首个去中心化训练的推理模型INTELLECT-2,它是全球首个通过完全异步的强化学习范式训练出来的模型。

关键观点2: 技术实现与特点

描述了INTELLECT-2的技术实现,包括其专为全球分布式、异步强化学习设计的技术栈,以及采用的关键技术和工具,如DiLoCo框架、OpenDiLoCo、PRIME-RL等。

关键观点3: 模型训练与实验

介绍了模型的训练过程,包括训练数据集、训练方法、训练过程中的挑战以及应对策略等。同时,通过实验结果展示了模型在解决数学和编码问题上的能力。

关键观点4: 模型的应用与意义

阐述了INTELLECT-2模型对于AI的民主化和开源发展的重要意义,以及其在资本市场上的反响和未来的发展前景。

关键观点5: 未来计划与挑战

介绍了Prime Intellect团队未来的计划,包括提高推理与训练的计算比率、为推理模型引入工具调用能力、推动众包RL任务和环境建设等,同时也指出了未来面临的挑战。


正文

请到「今天看啥」查看全文


TOPLOC (局部敏感哈希的无信任可验证推理方案)和 Prime Intellect 协议


TOPLOC 允许受信任的验证者节点高效审计推理节点生成的加密承诺,确保其计算的正确性,并通过采样检查(如终止检查、令牌采样检查)和健全性检查(如固定数据采样、值范围检查)进一步保障数据质量。


Prime Intellect 协议则扮演了整个去中心化网络的“大脑”,通过 Rust 实现的去中心化账本、工作者软件、发现服务和协调器,实现了对节点的自动注册、硬件检查、心跳监控、任务调度与分发(采用拉取模式)、以及贡献记录等功能,构建了一个类似于去中心化 SLURM 的系统,有效协调全球计算资源。


受益于 Qwen 和 DeepSeek 的模型训练


INTELLECT-2 的训练基于 QwQ-32B 模型,并很大程度上遵循了 DeepSeek-R1 的 GRPO(Group Relative Policy Optimization)训练方法,但进行了多项关键修改。


训练始于一个包含 28.5 万个可验证数学与编码任务的数据集(来自 NuminaMath-1.5、Deepscaler 和 SYNTHETIC-1)。它采用双重目标:二元任务奖励(正确为 1,错误为 0)和长度奖励,后者使用户能够在推理时控制“思考令牌”的数量。这种设计允许模型学习在解决数学和编码问题的同时,根据用户指定的思考长度控制其推理过程,提供了灵活性和可控性。


为了适应去中心化环境并提高效率,训练采用了多步异步强化学习。实验表明,即使存在多达四步的异步延迟,模型性能也能与同步基线持平,证明了在轻微离策略数据上训练的有效性。数据过滤在其中发挥了重要作用,团队结合了离线过滤(预先筛选掉对基模型而言过易或过难的问题)和在线过滤(确保训练批次中包含足够数量的具有非零优势值的样本),这不仅提升了学习效率,也间接增加了对去中心化推理节点的需求。


图丨同步、集中式单步异步和去中心化两步异步强化学习的比较(来源:Prime Intellect)


为了应对训练过程中(尤其是训练大型模型时)常见的损失尖峰和梯度爆炸等不稳定性问题,团队引入了双边令牌概率比率裁剪(Two-Sided GRPO Clipping)机制,为负优势情况下的概率比率添加上界,显著缓解了传统 PPO 类算法中可能出现的巨大损失值和梯度更新问题。


团队还观察到,随着训练进行,即使在没有立即尖峰的情况下,梯度范数也会逐渐但持续增加。这种现象似乎与模型大小相关,在更大的架构中更为明显。他们发现, 采用激进的梯度裁剪(阈值低至 0.05-0.1)能有效缓解稳定性问题,而不显著阻碍收敛,在稳定性和训练效率之间取得了平衡。


图丨在 MATH 数据集上训练的不同模型规模的梯度范数和裁剪率不断上升(来源:Prime Intellect)


那么这种训练的效率究竟如何呢?团队采用两种设置进行了实验:


  • TARGET-SHORT: 使用较短目标长度(1000、2000、3000、4000)训练高效推理模型


  • TARGET-LONG: 使用较长目标长度(2000、4000、6000、8000、10000)的主要运行


在计算利用率方面,SHARDCAST 向所有节点广播权重(62GB)平均耗时 14 分钟,对应约 590Mb/s 的带宽吞吐量。连接性好的节点能更早收到检查点并开始生成数据。


在 TARGET-SHORT 设置中,首个数据文件在广播完成约 10 分钟后提交,由于 TOPLOC 的高效验证(通常 1 分钟内完成),约 22 分钟后即可收集到足够用于一个批次的已验证样本。







请到「今天看啥」查看全文