正文
但现在,这一切真的成真了。
接下来会发生什么?
AI的“下半场”。
从现在开始,将把重点
从“解决问题”转向“定义问题”
。在这个新的阶段,如何评估AI能力,比单纯训练模型更加重要。
我们不再只问“我们能不能训练出能解决X问题的模型?”,而是要问“我们究竟应该训练AI去做什么?我们又该如何衡量真正的进步?”想要在下半场脱颖而出,我们不仅要及时调整思维方式和能力结构,
甚至可能需要逐渐向产品经理靠拢。
01 上半场
要理解AI的“上半场”,不妨看看那些真正的赢家。
到目前为止,你认为最具影响力的AI论文有哪些?我做过斯坦福224N课程里的一个小测试,结果其实并不意外:Transformer、AlexNet、GPT-3等等
。
这些论文有什么共同点?
它们都带来了基础性的突破
,让我们能训练出更强大的模型。同时,它们之所以能发表,也因为在某些基准测试上取得了显著提升。
但其实还有个更深层的共性:这些“赢家”本质上都是新的训练方法或模型,而不是基准测试或具体任务。哪怕是公认最具影响力的基准数据集ImageNet,
它的引用量还不到AlexNet的三分之一
。而如果你再看看方法和基准之间的对比,这种差距就更加明显了。
以Transformer为例,它的主要基准是WMT’14机器翻译任务。WMT’14的工作坊报告被引用大约1,300次,
而Transformer论文的引用数已经超过16万
。
这恰好说明了AI“上半场”的玩法:重心始终在于打造新的模型和方法,至于评测和基准测试,虽然必不可少,但始终只是辅助,为论文体系服务。
为什么会这样?很大一个原因在于,在AI发展的上半场,提出新方法本身比设计新任务更难、更令人兴奋。创造一项全新的算法或模型架构,比如反向传播算法、卷积神经网络(AlexNet),或GPT-3背后的Transformer,都需要极高的洞见和工程能力。
相比之下,为AI设计任务通常要简单得多:我们只需把人类已经在做的事情(比如翻译、图像识别、下棋)直接转换成基准测试即可,这里面并没有太多创新或者技术难点。
此外,新方法往往比具体任务更具通用性和适用范围,因此价值更高。比如Transformer架构,最初只是在WMT’14机器翻译数据集上验证,但后来却成为计算机视觉、自然语言处理、强化学习等众多领域的核心动力,远远超出了它最初的应用场景。
一个优秀的新方法可以在许多不同的基准测试上取得突破,因为它本身简洁而通用,其影响力自然也就跨越了单一任务。
这种模式持续了数十年,并不断催生出改变世界的创新和突破,其具体表现就是各个领域基准成绩的不断刷新。那么,这种游戏规则为什么会发生改变?原因在于,所有这些创新和突破的积累,已经让我们在“解决任务”这件事上,获得了质的飞跃和真正可行的“通用配方”。
02 “通用配方”
那么,这套“通用配方”究竟是什么?其实它的核心要素并不意外:
大规模语言预训练、模型和数据的极致扩展,以及“推理+行动”的理念。
乍一听,这些词可能和硅谷每天流行的术语没什么两样,但为什么要称之为“配方”呢?
我们可以从强化学习(RL)的角度来理解。强化学习常被认为是AI的“终极形态”,毕竟,从理论上讲,RL可以保证在各种博弈中取胜;从实际应用看,没有RL也很难想象像AlphaGo这样超越人类的系统会出现。
在强化学习中,核心有三大要素:
算法、环境和先验知识
。长期以来,RL研究者的关注点主要集中在算法本身(比如REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO等),也就是智能体如何学习的“智慧核心”,而环境和先验知识通常被看作是固定的或者只是最简单的配置。