专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
目录
相关文章推荐
丁香生活研究  ·  警惕!这种维生素 10 个人里 9 ... ·  2 天前  
江西日报  ·  定了!6月20日南昌“两滩七湾”正式开放 ·  2 天前  
丁香医生  ·  每周运动多久,减肥效果更佳? ·  2 天前  
每天60秒读懂世界  ·  “鱼油”这场骗局,只有中国人才懂 ·  2 天前  
每天60秒读懂世界  ·  “鱼油”这场骗局,只有中国人才懂 ·  2 天前  
51好读  ›  专栏  ›  大模型智能

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

大模型智能  · 公众号  ·  · 2025-05-14 00:00

正文

请到「今天看啥」查看全文



1,自我毁灭;
2,分裂成两个外星人;
3,分裂成三个外星人;
4,什么都不做。

此后每天,每个外星人均会做一次选择,且彼此之间相互独立,求地球上最终没有外星人的概率

在思考了一会儿之后,回答是酱婶。

图片
图片

虽然格式有点乱,但是最后回答正确,而且是解析解。(o゜▽゜)o☆[BINGO!]。

如果昨天是明天就好了,那么今天就是周五了。 问:句子中的今天可能是星期几?

图片

可以看到基本能力有,但现在还不是特别稳定。像当你开始新对话时,会碰到以下这种情况。

图片

已经有热心网友已经制作成了GGUF格式上传到HF。

图片
02
分布式强化学习训练

INTELLECT-2是一个分布式的大模型训练框架,采用了全球分布式异步强化学习的范式。

通俗讲,INTELLECT-2就如同一个超大型的众包项目,任何拥有闲置算力资源的人都可以参与其中。

“异步”则是指不同阶段可以独立、并行地进行,因此不同性能的设备可以同时参与,而不会相互影响。

具体来说,系统会利用全球贡献者提供的异构算力在本地生成推理数据;这些数据经过验证后汇集到中心,用于更新模型策略;更新后的策略再分发到每个节点,开始新一轮迭代。

图片

在这套流程当中,一共涉及了四大关键组件——

  • 核心RL框架PRIME-RL,实现推理数据生成与模型训练的解耦和异步进行;
  • 参数分发网络SHARDCAST,负责将更新后的模型参数高效分发给全球各地的推理节点;
  • 推理验证协议TOPLOC,验证每个推理节点提交数据的可信性;
  • Protocol Testnet,为不同学习任务构建独立算力资源池,实现算力贡献和使用的去中心化管理。

INTELLECT团队已将这四大组件全部开源。

核心RL框架PRIME-RL

PRIME-RL的核心,是支持推理数据生成与模型训练的解耦与异步执行。

这种方式允许分散的推理节点按照自己的进度生成数据,无需彼此协调和等待。

为了进一步提升性能和减小显存占用,PRIME-RL采用支持bfloat16精度的vLLM(vector LLM)作为推理运行时。

另外还集成了FSDP (Fully Sharded Data Parallel) 技术对模型进行切片。

FSDP将模型的参数和梯度按层切分到不同的GPU上,每个GPU只负责一部分的计算和存储。

参数分发网络SHARDCAST

SHARDCAST是一个基于HTTP的参数分发网络,负责将更新后的模型权重广播给全球范围内的推理节点。

在分布式强化学习中,由于文件体积极大,而网络带宽资源良莠不齐,模型权重的分发通常是一个难点。

为了解决这个问题,SHARDCAST引入了分片传输、多级缓存、智能调度等一系列优化技术。

分片传输指的是将模型权重文件切分成多个小的分片,然后并行传输。这种做法不仅能充分利用网络带宽,降低传输延迟,还能提高传输的鲁棒性,不会因为个别分片传输失败而造成整体重传。

多级缓存是一种类似于CDN的传输模式,具体来说,SHARDCAST在推理节点和中心节点之间引入了一层中继服务器作为缓存。每当中心节点产生新的模型权重,它首先将权重文件推送到这些中继服务器。

这样一来,推理节点就可以就近从中继服务器拉取权重文件,而不是直接从中心节点获取,可以有效缓解中心节点的网络I/O压力。

图片






请到「今天看啥」查看全文