专栏名称: 算法与数据结构
算法与数据结构知识、资源分享
目录
相关文章推荐
算法爱好者  ·  国民软件 QQ ... ·  13 小时前  
九章算法  ·  计算机专业走向,没有悬念了! ·  19 小时前  
算法爱好者  ·  GitHub 资深工程师揭秘:90% ... ·  昨天  
算法爱好者  ·  禁用 Cursor ... ·  昨天  
51好读  ›  专栏  ›  算法与数据结构

强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法

算法与数据结构  · 公众号  · 算法  · 2024-11-11 11:12

正文

请到「今天看啥」查看全文



智能体和环境之间的交互可以表述为一个有限马尔可夫决策过程(MDP)(S, A, R, p),其中 S 表示状态集,A 表示动作集,R 表示奖励集,p : S × R × S × A → [0, 1] 表示转换的动态。在时间步骤 t,智能体处于状态 S_t,使用行为策略 b : A × S → [0, 1] 采取行动 A_t,然后根据转换动态:


观察下一个状态 S_{t+1} 和奖励 R_{t+1}。

这里研究的问题是持续性问题,即智能体和环境的交互会无限地进行。智能体的目标是最大化长期获得的平均奖励。为此,该团队考虑了估计每个状态的预期折扣奖励总和的方法:


这里,折扣因子不是问题的一部分,而是一个算法参数。

奖励聚中思想很简单:从奖励中减去实际观察到的奖励的平均值。这样做会让修改后的奖励看起来以均值为中心。

这种以均值为中心的奖励在 bandit 设置中很常见。举个例子,Sutton 和 Barto 在 2018 年的一篇论文中表明,根据观察到的奖励估计和减去平均奖励可以显着提高学习速度。

而这里,该团队证明所有强化学习算法都能享受到这种好处,并且当折现因子 γ 接近 1 时,好处会更大。

奖励聚中之所以这么好,一个底层原因可通过折现价值函数的罗朗级数(Laurent Series)分解来揭示。

折现价值函数可被分解成两部分。其中一部分是一个常数,并不依赖状态或动作,因此并不参与动作选取。

用数学表示的话,对于与折现因子 γ 对应的策略 π 的表格折现价值函数



其中 r(π) 是策略 π 获得的独立于状态的平均奖励, 是状态 s 的微分值。它们各自对于遍历 MDP 的定义为:






请到「今天看啥」查看全文