正文
非常干净的奖励信号(clean reward signal)
。
比如说,完成诺奖级研究所涉及的任务,往往具备更多层次的「可验证性」
。
相比之下,
一部「值得获奖」的小说需要的是审美判断与文学品味
,
这些就非常主观,难以量化。
所以
模型很可能会更早地在科学研究领域实现「诺奖级突破」,
而不是先写出一部能赢得普利策奖的小说。
普利策奖奖章
但至少两位创作者,
已经用LLM写出了完整的长篇书稿
。
他们都非常擅长为设计文章结构和提示(scaffolding&prompting)。
也就是说,关键不是模型不行,而是你会不会用。
本质上,「电脑操作智能体」(Computer Use Agent)和「软件工程」智能体没有多大区别。
只要能电脑操作把表示成token输入,LLM就能处理。
模型现在能「看图」,能画图,能理解复杂的概念,这些基本已经实现。
电脑操作唯一的区别是:
比数学和编码更难嵌入反馈回路中
。
但这只是难度更高,不代表做不到。
而且,大家低估了现在AI实验室到底有多「糙」。
外界以为这些实验室运转得像完美机器,其实完全不是。
这些大模型的开发流程,实则是在巨大的时间压力下仓促构建的。
-
团队人手严重不足
-
优先级很难排
-
每一步都是在「边干边补」的状态下推进的
实验室在疯狂招人、培训人,根本还没轮到把「AI操作电脑」当作重点。
相比之下,「编码」是更有价值、也更容易落地的方向。所以更值得优先集中资源突破。
在软件工程基准测试SWE-bench中,Claude4与其他模型的比较
一旦模型能搞定代码,价值会
呈超级指数级
释放。 而电脑操作虽然也重要,但优先级自然就排后面了。
还有个被低估的因素:研究员们喜欢研究
他们认同的「智能标准」
。
为什么是数学、竞赛编程先突破?因为那是他们认可的「聪明」。
他们觉得:「要是模型能在AIME(美国数学竞赛)上赢我,那才是真的强。」
但你让它做Excel报表?无人在乎。
所以现在的局面是: 模型在他们心目中已经够聪明了,
但大家还没把精力花在「电脑操作」这块上
。
一旦资源倾斜过来,这块进展也不会慢。
Ai2的科学家Nathan Lambert,也认同这种观点:
RLVR没学会新技能,是因为投入的算力不够大。
如果投入算力总量的10%-25%,我猜模型会让人刮目相看。
如果未来一两年内,智能体开始上岗,软件工程实现自动,模型的使用价值将呈指数级增长。而这一切的前提,是海量算力的支持。
关键在于
推理的算力问题
,但这被严重低估了。
目前,全球大约有1000万张H100级别的算力芯片。
Epoch
AI
估算的
GPU
算力变化和趋势
有研究估算,一张H100的浮点运算能力,大致相当于一颗人脑。
如果以AGI达到人类推理效率为假设,这意味着今天的地球上,理论上已经能同时运行1000万个AGI。
这个数字到2028年预计将达到1亿张。但即便如此,可能仍不够。
因为人类正以每年2.25到2.5倍的速度扩张算力,但在2028年左右,将迎来上限:晶圆产能的物理瓶颈。
建厂周期很长,一旦触顶,算力增长就会放缓。
再者,有些人认为人类离真正拥有长上下文、一致意图、强多模态能力的AGI还很远。
这正是在「AGI实现速度」上,业内意见分歧的关键所在。
这背后有两个关键认知差异:
第一,业内很多专家认为——要在长上下文推理、多模态理解等方面实现突破,没那么快。
人类级别的推理能力,通常需要算力提升几个数量级才能支撑。
第二,芯片问题,还包括电力、GDP等限制等可能让算力增长停滞,而如果到2028或2030年还没实现AGI,那之后每年的实现概率,也许就会开始大幅下滑。
窗口期,稍纵即逝。
就AGI实现问题,Leopold Aschenbrenner写了Situational Awareness
。
Leopold Aschenbrenner:专注于AGI的投资人,OpenAI超级对齐团队前成员
其中,有个小标题就叫做「This Decade or Bust」,大意为「这十年,不成则废」。
意思是:我们能不能搞定AGI,基本就看这十年了。
长文中对有效算力的预测
未来几年,
还可以显著增加训练算力