专栏名称: 算法与数据结构
算法与数据结构知识、资源分享
目录
相关文章推荐
51好读  ›  专栏  ›  算法与数据结构

2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

算法与数据结构  · 公众号  · 算法  · 2025-03-21 11:12

正文

请到「今天看啥」查看全文


ACM 图灵奖常被称为「计算机领域的诺贝尔奖」,奖金为 100 万美元,由谷歌公司提供资金支持。该奖项以提出计算数学基础的英国数学家艾伦・图灵命名。
强化学习,当今 AI 突破的原点
说起强化学习,我们可以想起最近引爆全球 AI 技术爆发的 DeepSeek R1,其中的强化学习算法 GRPO 赋予了大模型极强的推理能力,且不需要大量监督微调,是 AI 性能突破的核心。
再往前看,在围棋上超越人类的 AlphaGo 也是利用强化学习自我博弈训练出的策略。可以说最近的几次 AI 突破,背后总有强化学习的身影。
人工智能领域通常会比较关注智能体的构建 —— 即可以感知和行动的实体。更智能的智能体能够选择更好的行动方案。因此,想出比其他方案更好行动方案概念,对 AI 非常关键。借用自心理学和神经科学的「奖励」— 词,表示向智能体提供的与其行为质量相关的信号。强化学习(RL)是在这种信号下学习更成功行为的过程。
通过奖励学习的理念对动物训练师来说已有数千年历史。后来,艾伦・图灵 1950 年的论文《计算机械与智能》提出了「机器能思考吗?」的问题,并提出了基于奖励和惩罚的机器学习方法。
图灵报告说他进行了一些初步实验,Arthur Samuel 也在 1950 年代后期开发了一个能通过自我对弈学习的跳棋程序。但在接下来的几十年里,AI 的这一方向进展甚微。
直至 1980 年代初,受心理学观察的启发,Andrew Barto 和他的博士生 Richard Sutton 开始将强化学习作为一个通用问题框架进行构建。
他们借鉴了马尔可夫决策过程(MDP)提供的数学基础,在这个框架中,智能体在随机环境中做出决策,每次转换后收到奖励信号,并最大化其长期累积奖励。
与标准 MDP 理论假设智能体知道一切不同,RL 框架允许环境和奖励是未知的。RL 的最小信息需求,结合 MDP 框架的通用性,使 RL 算法可以应用于广泛的问题。






请到「今天看啥」查看全文