全球闲置算力训个模型，性能媲美R1，老黄天塌了！Karpathy曾投资它

大模型智能 · 公众号 · · 2025-05-14 00:00

正文

1，自我毁灭；
2，分裂成两个外星人；
3，分裂成三个外星人；
4，什么都不做。

此后每天，每个外星人均会做一次选择，且彼此之间相互独立，求地球上最终没有外星人的概率

在思考了一会儿之后，回答是酱婶。

虽然格式有点乱，但是最后回答正确，而且是解析解。(o゜▽゜)o☆[BINGO!]。

如果昨天是明天就好了，那么今天就是周五了。问：句子中的今天可能是星期几？

可以看到基本能力有，但现在还不是特别稳定。像当你开始新对话时，会碰到以下这种情况。

已经有热心网友已经制作成了GGUF格式上传到HF。

分布式强化学习训练

INTELLECT-2是一个分布式的大模型训练框架，采用了全球分布式异步强化学习的范式。

通俗讲，INTELLECT-2就如同一个超大型的众包项目，任何拥有闲置算力资源的人都可以参与其中。

“异步”则是指不同阶段可以独立、并行地进行，因此不同性能的设备可以同时参与，而不会相互影响。

具体来说，系统会利用全球贡献者提供的异构算力在本地生成推理数据；这些数据经过验证后汇集到中心，用于更新模型策略；更新后的策略再分发到每个节点，开始新一轮迭代。

在这套流程当中，一共涉及了四大关键组件——

INTELLECT团队已将这四大组件全部开源。

PRIME-RL的核心，是支持推理数据生成与模型训练的解耦与异步执行。

这种方式允许分散的推理节点按照自己的进度生成数据，无需彼此协调和等待。

为了进一步提升性能和减小显存占用，PRIME-RL采用支持bfloat16精度的vLLM(vector LLM)作为推理运行时。

另外还集成了FSDP （Fully Sharded Data Parallel） 技术对模型进行切片。

FSDP将模型的参数和梯度按层切分到不同的GPU上，每个GPU只负责一部分的计算和存储。

SHARDCAST是一个基于HTTP的参数分发网络，负责将更新后的模型权重广播给全球范围内的推理节点。

在分布式强化学习中，由于文件体积极大，而网络带宽资源良莠不齐，模型权重的分发通常是一个难点。

为了解决这个问题，SHARDCAST引入了分片传输、多级缓存、智能调度等一系列优化技术。

分片传输指的是将模型权重文件切分成多个小的分片，然后并行传输。这种做法不仅能充分利用网络带宽，降低传输延迟，还能提高传输的鲁棒性，不会因为个别分片传输失败而造成整体重传。

多级缓存是一种类似于CDN的传输模式，具体来说，SHARDCAST在推理节点和中心节点之间引入了一层中继服务器作为缓存。每当中心节点产生新的模型权重，它首先将权重文件推送到这些中继服务器。

这样一来，推理节点就可以就近从中继服务器拉取权重文件，而不是直接从中心节点获取，可以有效缓解中心节点的网络I/O压力。