微软副总裁X上「开课」，连更关于RL的一切，LLM从业者必读

机器之心 · 公众号 · AI · 2025-05-26 09:28

正文

请到「今天看啥」查看全文

此外，智能体会利用其获得的知识来决定在环境中采取哪些行动，从而获得介入性因果知识。

在《An Invitation to Imitation 》一书中，CMU 教授 Drew Bagnell 探讨了一种名为 Dagger 的强化学习替代方案，其中智能体采取行动，老师来纠正学生。

对于智能体来说，从自身行动和自身经验中学习至关重要，这样它才能学会保持鲁棒性。

例如，如果智能体使用专业驾驶员提供的数据学习驾驶，有一天发现自己偏离了道路（这种情况即使是完美的老师也从未发生过），那么学生将不知所措。为了让学生学会回到道路上，它需要老师在那时提供建议。

一项重要的研究启示在于：生成模型对强化学习的作用与任何强化学习算法创新一样重要。这或许存在争议，但我认为过去十年间强化学习的进步，本质上是生成模型发展的结果。从算法演进来看（下文将详细展开），当前 AI 界普遍采用的基础算法思想 —— 如期望最大化算法（EM 算法）和策略梯度 —— 实际上已存在超过 50 年。真正的变革力量来自强化学习基础设施的规模扩张。

希望读者能通过本文认识到：关于无监督学习、监督学习与强化学习的终极定论尚未形成。虽然我质疑这种分类法的有效性，但在未来的教学实践中仍将沿用该框架以辅助知识传递。

分布式强化学习系统

智能体是一种能够感知环境、自主采取行动从而实现目标，并可能通过强化学习或教学来提升自身性能的实体。

智能体可以是一个多模态神经网络，它通过与环境的交互，为用户提供个性化目标。智能体观测得越多，就越容易为用户定制个性化的学习方案。

基于工业级大语言模型（LLM）的强化学习（RL），可能涉及数百万次并行交互，使用数十亿参数的模型，甚至需要调动整个数据中心 —— 成本极其高昂！

如何构建能在如此庞大尺度下高效运行的强化学习系统，绝非易事。

根据文章《IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures》、《acme: A library of reinforcement learning》，现代分布式强化学习系统可以分为两个部分：Actors 和 Learners。

每个 actor 通过使用称为策略的网络生成动作来与环境交互。actor 还从环境中收集奖励和观测结果。收集到的数据被添加到一个公共记忆中。

Learner 从记忆中采样数据并使用它来更新策略网络。更新网络后，需要将权重检查点发送给每个 actor。在设计此类系统时，测量每个操作的持续时间、每个通信链路的带宽等非常重要。这需要精确的工程设计以及全面的测量和消融。

在语言中，actors 是聊天机器人，环境是人。每次聊天的数据随后被发送到重放内存进行学习。通常，learner 可能比 actors 需要更多的存储空间和计算资源，因为 learner 需要跟踪梯度和大规模统计数据。

此外，了解 actors 的推理成本、通信成本和学习成本也至关重要。

另一方面，若数据采集速度不足，learner 可能需要重复利用历史经验来更新策略 —— 这正是 off-policy 场景的核心特征。此时必须解决一个关键问题：陈旧数据导致的偏差修正。在前面推文中的驾驶示例表明，过度依赖 off-policy 数据可能引发严重后果！

值得庆幸的是，研究者已提出多种解决方案：

重要性加权（Importance Weights）：对历史数据赋予不同权重以修正分布偏差；
近端策略优化（PPO）：通过剪裁机制控制策略更新幅度；
DeepSeek-R1 论文提出的加权方案：动态调整新旧数据贡献度。

当系统仅依赖大型历史经验库进行策略学习时，便进入离线强化学习（Off-line RL）或批量强化学习（Batch RL）范式。相较于监督学习，其优势在于继承了前文讨论的生成 - 选择机制；但相比在线强化学习，又因缺失环境实时交互而存在局限。

不过，离线强化学习在以下关键场景中具有不可替代价值：

高成本交互（如机器人物理训练）；
高风险环境（如自动驾驶事故数据学习）。

用于后训练 LLM 的 RL

目前看来，RL 有多种形式。

其中一种是单步（one-step ）RL 问题（上图左上角）。在这里，给定一个提示，模型会生成一个动作并得到一个评估。