专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  【[26星]Awesome-Legged-R ... ·  昨天  
黄建同学  ·  RAG 的下一个阶段 :带推理能力的 ... ·  2 天前  
爱可可-爱生活  ·  【[2.2k星]PakePlus:轻松将任意 ... ·  3 天前  
爱可可-爱生活  ·  【[60星]CURE:用强化学习让LLM学会 ... ·  3 天前  
51好读  ›  专栏  ›  新智元

【ICML教程】深度强化学习,决策与控制(117 PPT)

新智元  · 公众号  · AI  · 2017-08-10 11:36

正文

请到「今天看啥」查看全文




完整PPT下载:https://sites.google.com/view/icml17deeprl



神通广大 的神经网络模型与简单可扩展的训练算法结合在一起的深度学习对包括计算机视觉,语音识别和自然语言处理在内的一系列监督学习领域产生了巨大的影响。深度网络具备的捕获复杂、高维度功能并学习灵活的分布式表示的能力使得这一成功得以实现。这种能力可以对现实世界的决策和控制问题产生影响,机器不仅能对复杂的感官模式进行分类,还可以选择行动,并解释其长期的影响。


决策和控制问题在更经典的深度学习应用中缺乏相关的监督,并带来了一些挑战,需要新的算法开发来解决。在本教程中,我们将介绍与强化学习相关的强化和最优控制的基础理论,讨论将深度学习扩展到决策和控制中的一些最新成果,包括基于模型的算法,模仿学习和逆向强化学习,探索当前深度强化学习算法的前沿和局限性。



深度强化学习,决策与控制



序列决策的深度学习


什么时候不需要顺序决策?

  • 当你的系统在做单独的决策时,例如,分类,回归

  • 当这个决策不影响未来的决策时


一般的应用


机器人、自动驾驶、语言&对话(结构化预测)、商业运作、金融


为什么选择深度强化学习?


  • 深度学习对于解释丰富的感官输入很好

  • 对于选择复杂行动,强化学习很好

  • 使用深度网络来表示感官和动作的映射

  • 包含预估、控制,等

  • 需要扩展到大型的功能



本教程结构:

  1. 强化学习的问题设置

  2. 无模型强化学习

    策略梯度

    actor-critic 算法

    价值函数

3. Soft optimality

4. 反向RL

5. 基于模型的RL

6. 前沿与开放性挑战







请到「今天看啥」查看全文