2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

算法与数据结构 · 公众号 · 算法 · 2025-03-21 11:12

正文

请到「今天看啥」查看全文

ACM 图灵奖常被称为「计算机领域的诺贝尔奖」，奖金为 100 万美元，由谷歌公司提供资金支持。该奖项以提出计算数学基础的英国数学家艾伦・图灵命名。

强化学习，当今 AI 突破的原点

说起强化学习，我们可以想起最近引爆全球 AI 技术爆发的 DeepSeek R1，其中的强化学习算法 GRPO 赋予了大模型极强的推理能力，且不需要大量监督微调，是 AI 性能突破的核心。

再往前看，在围棋上超越人类的 AlphaGo 也是利用强化学习自我博弈训练出的策略。可以说最近的几次 AI 突破，背后总有强化学习的身影。

人工智能领域通常会比较关注智能体的构建 —— 即可以感知和行动的实体。更智能的智能体能够选择更好的行动方案。因此，想出比其他方案更好行动方案概念，对 AI 非常关键。借用自心理学和神经科学的「奖励」— 词，表示向智能体提供的与其行为质量相关的信号。强化学习（RL）是在这种信号下学习更成功行为的过程。

通过奖励学习的理念对动物训练师来说已有数千年历史。后来，艾伦・图灵 1950 年的论文《计算机械与智能》提出了「机器能思考吗？」的问题，并提出了基于奖励和惩罚的机器学习方法。

图灵报告说他进行了一些初步实验，Arthur Samuel 也在 1950 年代后期开发了一个能通过自我对弈学习的跳棋程序。但在接下来的几十年里，AI 的这一方向进展甚微。

直至 1980 年代初，受心理学观察的启发，Andrew Barto 和他的博士生 Richard Sutton 开始将强化学习作为一个通用问题框架进行构建。

他们借鉴了马尔可夫决策过程（MDP）提供的数学基础，在这个框架中，智能体在随机环境中做出决策，每次转换后收到奖励信号，并最大化其长期累积奖励。

与标准 MDP 理论假设智能体知道一切不同，RL 框架允许环境和奖励是未知的。RL 的最小信息需求，结合 MDP 框架的通用性，使 RL 算法可以应用于广泛的问题。