专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
爱可可-爱生活  ·  【[974星]ai-cookbook:AI开 ... ·  昨天  
arXiv每日学术速递  ·  「Next-Token」范式改变!刚刚,强化 ... ·  昨天  
arXiv每日学术速递  ·  「Next-Token」范式改变!刚刚,强化 ... ·  昨天  
爱可可-爱生活  ·  [LG]《Solving ... ·  昨天  
宝玉xp  ·  //@地才卷大葱:Awesome ... ·  2 天前  
爱可可-爱生活  ·  《爱可可微博热门分享(6.13)》 ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

学界 | 学习顶级玩家Replay,人工智能学会了星际争霸的「大局观」

机器之心  · 公众号  · AI  · 2017-07-14 12:14

正文

请到「今天看啥」查看全文



有关星际争霸系列游戏的人工智能研究层出不穷,因为这一即时战略游戏(RTS)的环境复杂,在同类游戏中,平衡性也做得最好。此前,一些组织和机构发起过如 AIIDE StarCraft AI Competition 这样的星际争霸 AI 比赛。去年, DeepMind 也在围棋之后把注意力转向了星际争霸 2 ,这家属于谷歌的公司认为该游戏相比国际象棋与围棋更加接近「复杂的现实世界」。


与今年 4 月 阿里巴巴和 UCL 的研究者们 试图让 AI 学会控制不同单位(学会「战术」胜利)不同,哥本哈根的研究人员这次试图让人工智能学会更高层面上的技巧(「战略」胜利)。而其后的模型训练方式也显得更加直接:研究人员使用了超过 2000 场顶级玩家对战的 Replay 来训练神经网络。



图 1. 该研究使用的游戏版本是《星际争霸:母巢之战》,人工智能控制神族,对战人族。


研究人员使用的新方法包括两个部分:1. 训练神经网络预测人类玩家的大局观(macromanagement)活动,即下一步将发生的动作;2. 将训练好的模型放入 UAlbertaBot 开源星际争霸 bot 中,代替原有的生产决策模块。UAlbertaBot 是由 David Churchill5 开发的一款开源的星际争霸 bot,在 2013 年赢得了 AIIDE StarCraft AI Competition。该 bot 包括多个分层模块,如信息管理、建筑管理和生产管理。其中,生产管理负责控制单位生产、升级等工作。在代替后,神经网络通过类似人类玩家的策略来对生产进行决策,从而让整个 AI 系统的表现大幅增强。


为了压缩文件尺寸,星际争霸的 Replay 包含了对战双方的所有指令,这同时也为神经网络的训练带来了便利。在训练中,Relplay 文件中的玩家动作状态被编码为归一化值的向量。训练神经网络使用的 Replay 数据集采集自 GosuGamers、ICCup 和 TeamLiquid 等网站,其中包含大量职业玩家之间的比赛。



图 2. 将星际争霸 Replay 转化为向量化动作对的示意图







请到「今天看啥」查看全文