专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
爱可可-爱生活  ·  [LG]《Leave it to the ... ·  23 小时前  
爱可可-爱生活  ·  今日推介(第1790期):大块推理时训练框架 ... ·  23 小时前  
爱可可-爱生活  ·  【[143星]Servo ... ·  昨天  
51好读  ›  专栏  ›  AI科技评论

从麻将到“农药”,细数 AI 攻占的游戏领域

AI科技评论  · 公众号  · AI  · 2020-01-25 13:00

正文

请到「今天看啥」查看全文


Suphx在2019年3月份开始登录天凤平台,经过近三个多月、与人类玩家展开了5000余场四麻对局后,6月份Suphx成功晋级天凤十段,也是首个晋级十段的AI系统。
技术简介以及策略
136张麻将牌的排列组合可能性非常多,再加上打牌过程中4位玩家出牌的顺序并不是固定的(例如碰杠等),导致游戏树不仅不规则而且还是动态变化。这些特点使得麻将AI很难使用AlphaGo那样的蒙特卡洛树搜索算法。
麻将中每个玩家除了手中的13张牌和已经打出的牌外,其他玩家手中的牌和剩余的底牌都是未知的(最多可以有超过120张未知的牌),由于隐藏信息过多导致游戏树的宽度非常大,树搜索算法基本不可行。
对于日本麻将而言,一轮游戏共包含8局,最后根据8局得分总和进行排名,来形成最终影响段位的点数奖惩。所以AI需要审时度势,把握进攻与防守的时机。
对麻将的这些特点,研究者将整个训练过程分为三个阶段。
首先是“初始化”阶段,本质上就是用专家数据(天凤平台提供的一些公开数据)做有监督学习,得到一个初始模型。
随后在这个初始模型基础上用自我博弈的方式进行强化学习。在这个阶段,为了克服非完美信息博弈的问题,研究者在训练阶段利用不可见的一些隐藏信息来引导AI模型的训练方向。
此外还利用“全盘预测”技术搭建起每轮比赛和8轮过后的终盘结果之间的桥梁。
第三个阶段则是在线比赛,通过不断参与到与人类玩家的对局中,从而不断得到自我更新和提高。
更多详情:
这次 AI 突破的是麻将!

AI 赌神升级6人局德扑完胜世界冠军

2017年年初,在卡耐基梅隆大学(CMU)举行了德州扑克人机大战,在比赛中4名人类职业玩家组成的人类大脑败给了人工智能程序Libratus。
如果说当时Libratus擅长的是1V1领域,那么2019年7月份的Pluribus在无限制德州扑克6人局里,战胜了人类顶尖选手。
Pluribus由Facebook与CMU合作开发,相关论文发表在了《Sicence》上面。据《Superhuman AI for multiplayer poker》这篇论文介绍,Pluribus,每小时能赢1千刀






请到「今天看啥」查看全文