专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
产品可靠性报告  ·  截图确认大数据杀熟!涉及电商、外卖、旅游等平台 ·  3 小时前  
产品可靠性报告  ·  截图确认大数据杀熟!涉及电商、外卖、旅游等平台 ·  3 小时前  
阿里云大数据AI平台  ·  【5月重点功能发布】阿里云大数据+ AI ... ·  5 小时前  
阿里云大数据AI平台  ·  【5月重点功能发布】阿里云大数据+ AI ... ·  5 小时前  
网信内蒙古  ·  解读2024年全国数据资源调查情况 ·  20 小时前  
网信内蒙古  ·  解读2024年全国数据资源调查情况 ·  20 小时前  
IDC咨询  ·  Data+AI市场快速演进,数据管理分析与G ... ·  2 天前  
IDC咨询  ·  Data+AI市场快速演进,数据管理分析与G ... ·  2 天前  
InfoTech  ·  DeepSeek更新了! ·  4 天前  
51好读  ›  专栏  ›  大数据文摘

DOTA2中打败Dendi的AI如何炼出?OpenAI公布两周集训细节(含实战视频)

大数据文摘  · 公众号  · 大数据  · 2017-08-17 13:00

正文

请到「今天看啥」查看全文


任务


完整的比赛是5v5,但一些锦标赛也会出现1v1的情况。 机器人遵守标准的锦标赛规则——并没有将AI特有的简化添加到1对1中。


机器人在如下界面上进行操作:


  • 观察:机器人的 API特征,英雄、小兵、信使以及任务附近的地形,被设计为与人类可以看到的相同。 并且机器人的视野也与人类相同。

  • 操作:机器人 API可访问的操作,也与人类相似,包括移动到某个位置,攻击某个单位或使用某个道具。

  • 反馈:机器人以赢得基本的参数作为奖励,如健康和最后命中。


我们把机器人可以使用的几十个项目列入白名单,并从中选择一个进行评估。 还使用传统的RL技术单独训练初始小兵模块,这个时候我们假设对手还没有出现。

机器人对战Arteezy。 (视频链接https://youtu.be/rNSH8CviQQw)


备战国际邀请赛


训练这个机器人的方法,是结合少量的“教练”与自我对练,这样可以大大改善代理在国际邀请赛上星期一和星期四之间的表现。 星期一晚上,Pajkatt通过使用不寻常的出装方式(购买早期魔术棒)获胜。 我们就将这个行为添加到训练的白名单中。


星期三下午1点左右,最新的机器人得到了测试。 机器人在第一波小兵中失去了大量生命值。 我们认为也许需要取消计划,但接下来的游戏让我们改变了这个看法,这个机器人第一波的行为是诱使其他机器人对其进行攻击。 进一步的自我对抗解决了这个问题,因为机器人学会了抵制诱饵策略。 同时,研究者将它与星期一的机器人拼接在一起,仅用于第一波小兵中,并在Arteezy下午四点出现之前的二十分钟完成了这个过程。


在与Arteezy比赛之后,研究人员更新了蠕变块模型,这增加了一个点的TrueSkill评分。 在星期四与Sumail比赛之前的进一步训练中,TrueSkill评分又增加了两个点。 Surmail指出,机器人已经学会了将暴牙扔出敌人的视野。 这是由于我们不知道的策略:这样可以防止敌人获得魔杖。


Arteezy也与7.5k半专业测试员打了一场比赛,在这场比赛中 Arteezy获得了胜利,但是测试人员仍然对他从机器人那里学到的策略感到惊讶。 Arteezy后来表示,这是一个帕帕拉齐曾经用过一次的策略,并不常见。

Pajkatt与星期一的机器人打了一场。 请注意,他诱骗机器人进行与他交战,并使用再生(精灵之火和魔术棒)来治愈。 在一次遭遇战中,机器人通常非常善于决定谁将赢得一场战斗,但是从来没有与在早期就拥有魔杖的人玩过。



(视频链接:
https://youtu.be/BBUiwCEmrxU)








请到「今天看啥」查看全文