专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
51好读  ›  专栏  ›  APPSO

刚刚,2024 图灵奖得主正式官宣,ChatGPT 和 DeepSeek 都曾受益于他们

APPSO  · 公众号  · app  · 2025-03-05 21:08

正文

请到「今天看啥」查看全文


直到 20 世纪 80 年代初,受心理学研究的启发,Barto 和他的博士生 Sutton 开始将强化学习正式确立为一个通用问题框架,为这一领域的发展奠定了基础。
他们借鉴了马尔可夫决策过程(Markov Decision Processes,MDPs)提供的数学基础。 在 MDP 框架下,智能体在一个随机环境中做出决策,每次状态转移后都会收到一个奖励信号,并以最大化长期累积奖励为目标。
传统的 MDP 理论假设智能体完全了解环境和奖励机制。
而强化学习(RL)框架则允许智能体在未知环境和未知奖励的情况下进行学习。这种对信息的最小依赖性,加上 MDP 框架的通用性,使 RL 算法可以广泛应用于各种问题,下面将进一步介绍其应用。
Barto 和 Sutton 及其合作者共同开发了许多强化学习的基本算法,其中最重要的贡献之一是时序差分学习(temporal difference learning),它在奖励预测问题上取得了重要突破。
此外,他们还提出了策略梯度方法(policy-gradient methods),并探索了神经网络在学习函数表示中的应用。他们还设计了结合学习与规划的智能体结构,证明了智能体在学习环境知识后进行规划的价值。
除了算法贡献,他们合著的教材《强化学习:导论》(Reinforcement Learning: An Introduction,1998)同样具有深远影响。这本书至今仍是该领域的标准参考文献,被引用超过 75000 次,成为该领域标准参考文献,培养了无数研究者。
尽管基础理论早在几十年前就已提出,但强化学习的实际应用在过去 15 年才取得重大突破。
这一进展主要源于强化学习与深度学习(由 2018 年图灵奖得主 Bengio、Hinton 和 LeCun 开创)的结合,催生了深度强化学习技术。没错,就是你所认知的 AI 教父——Hinton。
深度强化学习技术最具代表性的成功案例莫过于 AlphaGo 在 2016 年和2017年连续战胜世界顶级围棋选手






请到「今天看啥」查看全文