正文
此外,智能体会利用其获得的知识来决定在环境中采取哪些行动,从而获得介入性因果知识。
在《An Invitation to Imitation 》一书中,CMU 教授 Drew Bagnell 探讨了一种名为 Dagger 的强化学习替代方案,其中智能体采取行动,老师来纠正学生。
对于智能体来说,从自身行动和自身经验中学习至关重要,这样它才能学会保持鲁棒性。
例如,如果智能体使用专业驾驶员提供的数据学习驾驶,有一天发现自己偏离了道路(这种情况即使是完美的老师也从未发生过),那么学生将不知所措。为了让学生学会回到道路上,它需要老师在那时提供建议。
一项重要的研究启示在于:生成模型对强化学习的作用与任何强化学习算法创新一样重要。这或许存在争议,但我认为过去十年间强化学习的进步,本质上是生成模型发展的结果。从算法演进来看(下文将详细展开),当前 AI 界普遍采用的基础算法思想 —— 如期望最大化算法(EM 算法)和策略梯度 —— 实际上已存在超过 50 年。真正的变革力量来自强化学习基础设施的规模扩张。
希望读者能通过本文认识到:
关于无监督学习、监督学习与强化学习的终极定论尚未形成
。虽然我质疑这种分类法的有效性,但在未来的教学实践中仍将沿用该框架以辅助知识传递。
分布式强化学习系统
智能体是一种能够感知环境、自主采取行动从而实现目标,并可能通过强化学习或教学来提升自身性能的实体。
智能体可以是一个多模态神经网络,它通过与环境的交互,为用户提供个性化目标。智能体观测得越多,就越容易为用户定制个性化的学习方案。
基于工业级大语言模型(LLM)的强化学习(RL),可能涉及数百万次并行交互,使用数十亿参数的模型,甚至需要调动整个数据中心 —— 成本极其高昂!
如何构建能在如此庞大尺度下高效运行的强化学习系统,绝非易事。
根据文章《IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures》、《acme: A library of reinforcement learning》,
现代分布式强化学习系统可以分为两个部分:Actors 和 Learners。
每个 actor 通过使用称为策略的网络生成动作来与环境交互。actor 还从环境中收集奖励和观测结果。收集到的数据被添加到一个公共记忆中。
Learner 从记忆中采样数据并使用它来更新策略网络。更新网络后,需要将权重检查点发送给每个 actor。在设计此类系统时,测量每个操作的持续时间、每个通信链路的带宽等非常重要。这需要精确的工程设计以及全面的测量和消融。
在语言中,actors 是聊天机器人,环境是人。每次聊天的数据随后被发送到重放内存进行学习。通常,learner 可能比 actors 需要更多的存储空间和计算资源,因为 learner 需要跟踪梯度和大规模统计数据。
此外,了解 actors 的推理成本、通信成本和学习成本也至关重要。
另一方面,若数据采集速度不足,learner 可能需要重复利用历史经验来更新策略 —— 这正是 off-policy 场景的核心特征。此时必须解决一个关键问题:陈旧数据导致的偏差修正。在前面推文中的驾驶示例表明,过度依赖 off-policy 数据可能引发严重后果!
值得庆幸的是,研究者已提出多种解决方案:
-
重要性加权(Importance Weights):对历史数据赋予不同权重以修正分布偏差;
-
近端策略优化(PPO):通过剪裁机制控制策略更新幅度;
-
DeepSeek-R1 论文提出的加权方案:动态调整新旧数据贡献度。
当系统仅依赖大型历史经验库进行策略学习时,便进入离线强化学习(Off-line RL)或批量强化学习(Batch RL)范式。相较于监督学习,其优势在于继承了前文讨论的生成 - 选择机制;但相比在线强化学习,又因缺失环境实时交互而存在局限。
不过,离线强化学习在以下关键场景中具有不可替代价值:
-
高成本交互(如机器人物理训练);
-
高风险环境(如自动驾驶事故数据学习)。
用于后训练 LLM 的 RL
目前看来,RL 有多种形式。
其中一种是单步(one-step )RL 问题(上图左上角)。在这里,给定一个提示,模型会生成一个动作并得到一个评估。