主要观点总结
Prime Intellect团队发布了全球首个去中心化训练的320亿参数规模的推理模型INTELLECT-2。该模型采用完全异步的强化学习范式,在由全球贡献者组成的动态、异构且无需许可的计算网络中成功训练。文章介绍了其设计思路、技术实现和取得的成果,并指出其对于AI民主化和开源发展的重要意义。
关键观点总结
关键观点1: 全球首个去中心化训练的推理模型发布
介绍了Prime Intellect团队发布的全球首个去中心化训练的推理模型INTELLECT-2,它是全球首个通过完全异步的强化学习范式训练出来的模型。
关键观点2: 技术实现与特点
描述了INTELLECT-2的技术实现,包括其专为全球分布式、异步强化学习设计的技术栈,以及采用的关键技术和工具,如DiLoCo框架、OpenDiLoCo、PRIME-RL等。
关键观点3: 模型训练与实验
介绍了模型的训练过程,包括训练数据集、训练方法、训练过程中的挑战以及应对策略等。同时,通过实验结果展示了模型在解决数学和编码问题上的能力。
关键观点4: 模型的应用与意义
阐述了INTELLECT-2模型对于AI的民主化和开源发展的重要意义,以及其在资本市场上的反响和未来的发展前景。
关键观点5: 未来计划与挑战
介绍了Prime Intellect团队未来的计划,包括提高推理与训练的计算比率、为推理模型引入工具调用能力、推动众包RL任务和环境建设等,同时也指出了未来面临的挑战。
正文
TOPLOC
(局部敏感哈希的无信任可验证推理方案)和
Prime Intellect 协议
。
TOPLOC 允许受信任的验证者节点高效审计推理节点生成的加密承诺,确保其计算的正确性,并通过采样检查(如终止检查、令牌采样检查)和健全性检查(如固定数据采样、值范围检查)进一步保障数据质量。
Prime Intellect 协议则扮演了整个去中心化网络的“大脑”,通过 Rust 实现的去中心化账本、工作者软件、发现服务和协调器,实现了对节点的自动注册、硬件检查、心跳监控、任务调度与分发(采用拉取模式)、以及贡献记录等功能,构建了一个类似于去中心化 SLURM 的系统,有效协调全球计算资源。
受益于 Qwen 和 DeepSeek 的模型训练
INTELLECT-2 的训练基于 QwQ-32B 模型,并很大程度上遵循了 DeepSeek-R1 的 GRPO(Group Relative Policy Optimization)训练方法,但进行了多项关键修改。
训练始于一个包含 28.5 万个可验证数学与编码任务的数据集(来自 NuminaMath-1.5、Deepscaler 和 SYNTHETIC-1)。它采用双重目标:二元任务奖励(正确为 1,错误为 0)和长度奖励,后者使用户能够在推理时控制“思考令牌”的数量。这种设计允许模型学习在解决数学和编码问题的同时,根据用户指定的思考长度控制其推理过程,提供了灵活性和可控性。
为了适应去中心化环境并提高效率,训练采用了多步异步强化学习。实验表明,即使存在多达四步的异步延迟,模型性能也能与同步基线持平,证明了在轻微离策略数据上训练的有效性。数据过滤在其中发挥了重要作用,团队结合了离线过滤(预先筛选掉对基模型而言过易或过难的问题)和在线过滤(确保训练批次中包含足够数量的具有非零优势值的样本),这不仅提升了学习效率,也间接增加了对去中心化推理节点的需求。
图丨同步、集中式单步异步和去中心化两步异步强化学习的比较(来源:Prime Intellect)
为了应对训练过程中(尤其是训练大型模型时)常见的损失尖峰和梯度爆炸等不稳定性问题,团队引入了双边令牌概率比率裁剪(Two-Sided GRPO Clipping)机制,为负优势情况下的概率比率添加上界,显著缓解了传统 PPO 类算法中可能出现的巨大损失值和梯度更新问题。
团队还观察到,随着训练进行,即使在没有立即尖峰的情况下,梯度范数也会逐渐但持续增加。这种现象似乎与模型大小相关,在更大的架构中更为明显。他们发现,
采用激进的梯度裁剪(阈值低至 0.05-0.1)能有效缓解稳定性问题,而不显著阻碍收敛,在稳定性和训练效率之间取得了平衡。
图丨在 MATH 数据集上训练的不同模型规模的梯度范数和裁剪率不断上升(来源:Prime Intellect)
那么这种训练的效率究竟如何呢?团队采用两种设置进行了实验:
在计算利用率方面,SHARDCAST 向所有节点广播权重(62GB)平均耗时 14 分钟,对应约 590Mb/s 的带宽吞吐量。连接性好的节点能更早收到检查点并开始生成数据。
在 TARGET-SHORT 设置中,首个数据文件在广播完成约 10 分钟后提交,由于 TOPLOC 的高效验证(通常 1 分钟内完成),约 22 分钟后即可收集到足够用于一个批次的已验证样本。