专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
51好读  ›  专栏  ›  新智元

【AI学会“以牙还牙”】OpenAI发布多智能体深度强化学习新算法LOLA

新智元  · 公众号  · AI  · 2017-09-15 13:21

正文

请到「今天看啥」查看全文




具体说,LOLA智能体“Alice”会对另一个智能体Bob的参数更新进行建模,建模的过程依赖于Alice自己的策略以及Bob参数更新对Alice预期回报的影响。然后,Alice会更新自己的策略,让其他智能体(比如Bob)的学习步骤更有利于自己的目标。


LOLA智能体可以在游戏(比如迭代的囚徒困境或捡硬币游戏)中,发现有效的互惠策略。相比之下,最先进的深度强化学习方法,比如 Independent PPO,无法在游戏中学习这样的策略。这些智能体一般都会学习采取自私的行为,忽视其他智能体的目标。LOLA解决了这个问题,虽然也是让智能体采取有利于自身利益的行动,但这个行动也包含了其他智能体的目标在里面。有了LOLA,就不需要手工制定促进合作的规则,也不需要设置环境条件鼓励合作,智能体能自动探求倾向于合作的行为。


研究人员表示,LOLA的灵感来自于人类是如何合作的:人类非常擅长于推理自己的行动将如何影响其他人未来的行动,并且经常发明与其他人合作的方式来实现“双赢”。人类善于合作的原因之一,是他们对其他人有一种“心智理论”(theory of mind),这让他们制定出为合作方带来好处的策略。


到目前为止,这种“心智理论”还没有在深度多代理强化学习中得到体现。对于当前最先进的深度RL智能体来说,另一个智能体只是环境中第一部分,跟一棵树没有固有的区别。



数学证明:纳入“项”进行对手学习步骤的参数建模



LOLA性能的关键是项的纳入(inclusion of term):









请到「今天看啥」查看全文


推荐文章
禅茶一味  ·  ♬ 这一年,你过的好吗?
8 年前
中国医药信息网  ·  新版《药典临床用药须知》面世
7 年前