专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
51好读  ›  专栏  ›  AI科技评论

元强化学习迎来一盆冷水:不比元Q学习好多少

AI科技评论  · 公众号  · AI  · 2020-02-27 13:16

正文

请到「今天看啥」查看全文


表示动作,动态 参数化,其中每个k对应于不同的任务,分布 表示初始状态分布, 表示动态噪声。给定一个确定的策略 ,在无限时间范围内 折扣的未来奖励 的动作-价值函数如下式所示。



假设不同的任务具有相同的状态和动作空间,并且它们的动态 和奖励函数 可能不同。给定一个任务 ,标准强化学习形式化解决了以下问题。



用以下公式表示与任务 和策略 有关的所有状态、动作和奖励的数据集。


通常将 称为“任务”。用于求解(5)的确定性策略梯度(DPG)算法(Silver 等人,2014)通过最小化贝尔曼误差和通过求解耦合优化问题使该近似最大化的最优策略 ,学习一个 参数化逼近 到最优价值函数


单步时序差分误差按下式定义。


这里保持 的完全依赖性。DPG或其基于深度网络的变体DDPG(Lillicrap等人,2015)是一种离线策略算法,这意味着(6)中的期望值是使用不需要由正在优化的策略( )生成的数据来计算的,该数据可以来自其他一些策略。


2.1 元强化学习(META-RL)

Meta-RL是一种学习归纳偏差的技术,它通过加大训练任务量加速新任务的学习。形式上,元训练集 中任务的元训练涉及学习策略。


其中 是取决于特定方法的元训练损失。基于梯度的元强化学习,以Finn等人的MAML(2017)为例, 将下式中的步长


设为 是式(5)非Meta-RL的目标。 在这种情况下, 是任务 在对任务的策略进行一次(或通常是多次)更新之后获得的目标。这背后的想法是,即使策略






请到「今天看啥」查看全文