专栏名称: 大模型智能

机器学习算法、深度学习算法、自然语言处理等干货知识集中营

RLHF已死，RLVR引爆AGI革命！Claude4核心成员万字对谈

大模型智能 · 公众号 · · 2025-06-08 08:30

正文

请到「今天看啥」查看全文

非常干净的奖励信号（clean reward signal） 。

比如说，完成诺奖级研究所涉及的任务，往往具备更多层次的「可验证性」 。

相比之下， 一部「值得获奖」的小说需要的是审美判断与文学品味 ，

这些就非常主观，难以量化。

所以 模型很可能会更早地在科学研究领域实现「诺奖级突破」， 而不是先写出一部能赢得普利策奖的小说。

普利策奖奖章

但至少两位创作者， 已经用LLM写出了完整的长篇书稿 。

他们都非常擅长为设计文章结构和提示（scaffolding&prompting）。

也就是说，关键不是模型不行，而是你会不会用。

智能体的未来：操作电脑

本质上，「电脑操作智能体」（Computer Use Agent）和「软件工程」智能体没有多大区别。

只要能电脑操作把表示成token输入，LLM就能处理。

模型现在能「看图」，能画图，能理解复杂的概念，这些基本已经实现。

电脑操作唯一的区别是： 比数学和编码更难嵌入反馈回路中 。

但这只是难度更高，不代表做不到。

而且，大家低估了现在AI实验室到底有多「糙」。

外界以为这些实验室运转得像完美机器，其实完全不是。

这些大模型的开发流程，实则是在巨大的时间压力下仓促构建的。

团队人手严重不足
优先级很难排
每一步都是在「边干边补」的状态下推进的

实验室在疯狂招人、培训人，根本还没轮到把「AI操作电脑」当作重点。

相比之下，「编码」是更有价值、也更容易落地的方向。所以更值得优先集中资源突破。

在软件工程基准测试SWE-bench中，Claude4与其他模型的比较

一旦模型能搞定代码，价值会 呈超级指数级 释放。而电脑操作虽然也重要，但优先级自然就排后面了。

还有个被低估的因素：研究员们喜欢研究 他们认同的「智能标准」 。

为什么是数学、竞赛编程先突破？因为那是他们认可的「聪明」。

他们觉得：「要是模型能在AIME（美国数学竞赛）上赢我，那才是真的强。」

但你让它做Excel报表？无人在乎。

所以现在的局面是：模型在他们心目中已经够聪明了， 但大家还没把精力花在「电脑操作」这块上 。

一旦资源倾斜过来，这块进展也不会慢。

Ai2的科学家Nathan Lambert，也认同这种观点：

RLVR没学会新技能，是因为投入的算力不够大。

如果投入算力总量的10%-25%，我猜模型会让人刮目相看。

AGI雏形：LLM

如果未来一两年内，智能体开始上岗，软件工程实现自动，模型的使用价值将呈指数级增长。而这一切的前提，是海量算力的支持。

关键在于 推理的算力问题 ，但这被严重低估了。

目前，全球大约有1000万张H100级别的算力芯片。

Epoch AI 估算的 GPU 算力变化和趋势

有研究估算，一张H100的浮点运算能力，大致相当于一颗人脑。

如果以AGI达到人类推理效率为假设，这意味着今天的地球上，理论上已经能同时运行1000万个AGI。

这个数字到2028年预计将达到1亿张。但即便如此，可能仍不够。

因为人类正以每年2.25到2.5倍的速度扩张算力，但在2028年左右，将迎来上限：晶圆产能的物理瓶颈。

建厂周期很长，一旦触顶，算力增长就会放缓。

再者，有些人认为人类离真正拥有长上下文、一致意图、强多模态能力的AGI还很远。

这正是在「AGI实现速度」上，业内意见分歧的关键所在。

这背后有两个关键认知差异：

第一，业内很多专家认为——要在长上下文推理、多模态理解等方面实现突破，没那么快。

人类级别的推理能力，通常需要算力提升几个数量级才能支撑。

第二，芯片问题，还包括电力、GDP等限制等可能让算力增长停滞，而如果到2028或2030年还没实现AGI，那之后每年的实现概率，也许就会开始大幅下滑。

窗口期，稍纵即逝。

AGI的机会

就AGI实现问题，Leopold Aschenbrenner写了Situational Awareness 。

Leopold Aschenbrenner：专注于AGI的投资人，OpenAI超级对齐团队前成员

其中，有个小标题就叫做「This Decade or Bust」，大意为「这十年，不成则废」。

意思是：我们能不能搞定AGI，基本就看这十年了。

长文中对有效算力的预测

未来几年， 还可以显著增加训练算力