正文
然而,有一个潜在的共同点:这些“赢家”都是训练方法或模型,而不是基准测试或任务。即使是可以说是最具影响力的基准测试——ImageNet,其引用次数也不及 AlexNet 的三分之一。在其他地方,方法与基准测试的对比甚至更加悬殊——例如,Transformer 的主要基准测试是 WMT’14,其研讨会报告的引用次数约为 1300 次,而 Transformer 的引用次数超过了 16 万次。
这说明了上半场的游戏:专注于构建新的模型和方法,而评估和基准测试是次要的(尽管为了使论文体系运转起来是必要的)。
为什么呢?一个很大的原因是,在人工智能的上半场,方法比任务更难、更令人兴奋。从头开始创建一个新的算法或模型架构——想想像反向传播算法、卷积网络(AlexNet)或 GPT-3 中使用的 Transformer 这样的突破——需要非凡的洞察力和工程能力。相比之下,为人工智能定义任务往往感觉更简单:我们只是把人类已经做的事情(比如翻译、图像识别或国际象棋)变成基准测试。没有太多洞察力甚至工程能力。
方法也往往比单独的任务更通用、更广泛适用,因此它们特别有价值。例如,Transformer 架构最终推动了计算机视觉(CV)、自然语言处理(NLP)、强化学习(RL)以及许多其他领域的进步——远远超出了它最初证明自己的单一数据集(WMT’14 翻译)。一种伟大的新方法可以在许多不同的基准测试中不断改进,因为它简单且通用,因此其影响往往超越了单一任务。
这种游戏已经持续了几十年,并激发了改变世界的想法和突破,这些突破通过各个领域不断上升的基准测试表现体现出来。那么,为什么游戏会改变呢?因为这些想法和突破的积累在解决任务方面创造了一个有效的方案。
方案
方案是什么?它的成分,毫不奇怪,包括大规模语言预训练、规模(数据和计算)以及推理和行动的理念。这些听起来可能像是你在旧金山每天都能听到的流行语,但为什么称它们为方案呢?
我们可以通过强化学习(RL)的视角来理解这一点,强化学习通常被认为是人工智能的“终局”——毕竟,从理论上讲,强化学习保证能在游戏中获胜,而且实际上很难想象没有强化学习的超人类系统(例如阿尔法狗)。
在强化学习中,有三个关键组成部分:
算法、环境和先验知识
。长期以来,强化学习研究人员主要关注算法(例如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……)——即智能体学习的智力核心——而将环境和先验知识视为固定或最小化的。例如,Sutton 和 Barto 的经典教科书几乎只关注算法,而几乎不涉及环境或先验知识。
然而,在深度强化学习时代,很明显环境在实证上很重要:算法的性能往往高度依赖于其开发和测试的环境。如果你忽略环境,你可能会构建一个只在玩具环境中表现出色的“最优”算法。那么,为什么我们不首先确定我们真正想要解决的环境,然后找到最适合它的算法呢?
这正是 OpenAI 最初的计划。它构建了 gym,一个用于各种游戏的标准强化学习环境,然后是 World of Bits 和 Universe 项目,试图将互联网或计算机变成一个游戏。一个不错的计划,不是吗?一旦我们将所有数字世界变成一个环境,用聪明的强化学习算法解决它,我们就拥有了数字通用人工智能(AGI)。
一个不错的计划,但并没有完全奏效。OpenAI 在这条道路上取得了巨大进展,使用强化学习解决了 Dota、机械手等问题。但它从未接近解决计算机使用或网络导航的问题,而且一个领域中的强化学习智能体也无法转移到另一个领域。缺少了什么。