专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

学界 | DeepMind新论文提出循环环境模拟器:可适应多种不同环境

机器之心  · 公众号  · AI  · 2017-04-18 14:47

正文

请到「今天看啥」查看全文





可以模拟环境(environment)响应动作(action)的方式的模型可以被代理用来进行有效的规划和行动。我们通过引入能够做出未来数百个时间步骤的时间和空间连贯预测(coherent prediction)的循环神经网络(recurrent neural network)而改进了之前的来自高维像素观察的环境模拟器。我们对性能影响因素进行了深度的分析,为推动对这些模型的性质的理解提供了最广泛的尝试。我们使用一种模型解决了计算效率低下的问题——该模型不需要在每一个时间步骤都生成一个高维图像。我们表明我们的方法可以被用来改进探索(exploration),并且可以适应多种不同的环境,即 10 种 Atari 游戏、一个 3D 赛车环境和复杂的 3D 迷宫。


图 1:(a) 在 Oh et al. (2015) 中使用的循环结构的图模型,(b) 我们的循环结构的图模型。填充节点和空节点分别代表被观察的和隐藏的变量


2 循环环境模拟器


环境模拟器是一种模型;给定一个动作序列 a1, . . . , aτ−1 ≡ a1:τ−1 及其对应的环境观察 x1:τ,该模型可以预测后续动作的影响 ,比如,构建对环境的预测

或状态表征



我们的起点是 Oh et al. (2015) 中的循环模拟器(recurrent simulator),其在模拟带有视觉观察(帧)和离散动作的确定性环境上的表现是当前最佳的。该模拟器是一个带有以下主干结构的循环神经网络:



在这个等式中,st 是环境的隐藏状态表征,f 是一个非线性的确定状态转移函数。I 符号表示预测的帧 和真实的帧 xt−1 的选择,其会产生两种类型的状态转换,分别称为依赖于预测的转换(prediction-dependent transition)和依赖于观察的转换(observation-dependent transition)。C 是一个由一系列卷积构成的编码函数,D 是一个将状态 st 和动作 at-1 通过一个乘法交互组合起来的解码函数,它然后使用一系列全卷积来将其构建出预测的帧







请到「今天看啥」查看全文