专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
新机器视觉  ·  工业相机标定相关知识整理 ·  13 小时前  
爱可可-爱生活  ·  【[530星]Roo ... ·  16 小时前  
爱可可-爱生活  ·  【[3.9k星]HyDE:为开发者打造的个性 ... ·  昨天  
爱可可-爱生活  ·  Ambient Diffusion ... ·  3 天前  
爱可可-爱生活  ·  《爱可可微博热门分享(6.13)》 ... ·  3 天前  
51好读  ›  专栏  ›  新智元

RLHF已死,RLVR引爆AGI革命!Claude 4核心成员万字对谈

新智元  · 公众号  · AI  · 2025-06-07 09:00

正文

请到「今天看啥」查看全文


人类对两段输出打分,告诉模型哪一段更好。

随着训练迭代,模型生成的输出越来越接近人类「想要的答案」。

但问题在于,这种方法 并不能真正提升模型在「高难度问题」上的表现, 因为人类其实不是很擅长判断「哪个答案更好」。

所以,更理想的是提供一种能 客观判断模型输出是否正确 的信号。

比如,数学题的正确答案;代码是否通过了单元测试。

这类都是典型的、 非常干净的奖励信号(clean reward signal)

比如说,完成诺奖级研究所涉及的任务,往往具备更多层次的「可验证性」

相比之下, 一部「值得获奖」的小说需要的是审美判断与文学品味

这些就非常主观,难以量化。

所以 模型很可能会更早地在科学研究领域实现「诺奖级突破」, 而不是先写出一部能赢得普利策奖的小说。

普利策奖奖章

但至少两位创作者, 已经用LLM写出了完整的长篇书稿

他们都非常擅长为设计文章结构和提示(scaffolding&prompting)。

也就是说,关键不是模型不行,而是你会不会用。

智能体的未来:操作电脑


本质上,「电脑操作智能体」(Computer Use Agent)和「软件工程」智能体没有多大区别。

只要能电脑操作把表示成token输入,LLM就能处理。

模型现在能「看图」,能画图,能理解复杂的概念,这些基本已经实现。

电脑操作唯一的区别是: 比数学和编码更难嵌入反馈回路中

但这只是难度更高,不代表做不到。

而且,大家低估了现在AI实验室到底有多「糙」。

外界以为这些实验室运转得像完美机器,其实完全不是。

这些大模型的开发流程,实则是在巨大的时间压力下仓促构建的。

  • 团队人手严重不足

  • 优先级很难排

  • 每一步都是在「边干边补」的状态下推进的

实验室在疯狂招人、培训人,根本还没轮到把「AI操作电脑」当作重点。

相比之下,「编码」是更有价值、也更容易落地的方向。所以更值得优先集中资源突破。

在软件工程基准测试SWE-bench中,Claude4与其他模型的比较

一旦模型能搞定代码,价值会 呈超级指数级 释放。 而电脑操作虽然也重要,但优先级自然就排后面了。

还有个被低估的因素:研究员们喜欢研究 他们认同的「智能标准」

为什么是数学、竞赛编程先突破?因为那是他们认可的「聪明」。

他们觉得:「要是模型能在AIME(美国数学竞赛)上赢我,那才是真的强。」

但你让它做Excel报表?无人在乎。

所以现在的局面是: 模型在他们心目中已经够聪明了, 但大家还没把精力花在「电脑操作」这块上

一旦资源倾斜过来,这块进展也不会慢。

Ai2的科学家Nathan Lambert,也认同这种观点:

RLVR没学会新技能,是因为投入的算力不够大。


如果投入算力总量的10%-25%,我猜模型会让人刮目相看。


AGI雏形:LLM


如果未来一两年内,智能体开始上岗,软件工程实现自动,模型的使用价值将呈指数级增长。而这一切的前提,是海量算力的支持。

关键在于 推理的算力问题 ,但这被严重低估了。

目前,全球大约有1000万张H100级别的算力芯片。

Epoch AI 估算的 GPU 算力变化和趋势

有研究估算,一张H100的浮点运算能力,大致相当于一颗人脑。

如果以AGI达到人类推理效率为假设,这意味着今天的地球上,理论上已经能同时运行1000万个AGI。







请到「今天看啥」查看全文