从麻将到“农药”，细数 AI 攻占的游戏领域

AI科技评论 · 公众号 · AI · 2020-01-25 13:00

正文

Suphx在2019年3月份开始登录天凤平台，经过近三个多月、与人类玩家展开了5000余场四麻对局后，6月份Suphx成功晋级天凤十段，也是首个晋级十段的AI系统。

技术简介以及策略

136张麻将牌的排列组合可能性非常多，再加上打牌过程中4位玩家出牌的顺序并不是固定的（例如碰杠等），导致游戏树不仅不规则而且还是动态变化。这些特点使得麻将AI很难使用AlphaGo那样的蒙特卡洛树搜索算法。

麻将中每个玩家除了手中的13张牌和已经打出的牌外，其他玩家手中的牌和剩余的底牌都是未知的（最多可以有超过120张未知的牌），由于隐藏信息过多导致游戏树的宽度非常大，树搜索算法基本不可行。

对于日本麻将而言，一轮游戏共包含8局，最后根据8局得分总和进行排名，来形成最终影响段位的点数奖惩。所以AI需要审时度势，把握进攻与防守的时机。

对麻将的这些特点，研究者将整个训练过程分为三个阶段。

首先是“初始化”阶段，本质上就是用专家数据（天凤平台提供的一些公开数据）做有监督学习，得到一个初始模型。

随后在这个初始模型基础上用自我博弈的方式进行强化学习。在这个阶段，为了克服非完美信息博弈的问题，研究者在训练阶段利用不可见的一些隐藏信息来引导AI模型的训练方向。

此外还利用“全盘预测”技术搭建起每轮比赛和8轮过后的终盘结果之间的桥梁。

第三个阶段则是在线比赛，通过不断参与到与人类玩家的对局中，从而不断得到自我更新和提高。

更多详情：

这次 AI 突破的是麻将！

2017年年初，在卡耐基梅隆大学(CMU)举行了德州扑克人机大战，在比赛中4名人类职业玩家组成的人类大脑败给了人工智能程序Libratus。

如果说当时Libratus擅长的是1V1领域，那么2019年7月份的Pluribus在无限制德州扑克6人局里，战胜了人类顶尖选手。

Pluribus由Facebook与CMU合作开发，相关论文发表在了《Sicence》上面。据《Superhuman AI for multiplayer poker》这篇论文介绍，Pluribus，每小时能赢1千刀

推荐文章

爱可可-爱生活 · [LG]《Leave it to the Specialist:-20250603053449

23 小时前

爱可可-爱生活 · 今日推介(第1790期)：大块推理时训练框架、通过稀疏性进化的稀-20250603061710

23 小时前

爱可可-爱生活 · 【[143星]Servo Stylo：为Servo和Firefo-20250602220153

昨天

宝玉xp · 当年说夹头还被司马南投诉过查看图片 //@西雅图黄都督://@-20250602145832

昨天

爱可可-爱生活 · 本文通过大规模语言模型训练实验，颠覆性地揭示了即使精心调优的Si-20250602055327

昨天

教你看穿男人的心 · 女人的欲望是被人疼爱，男人的欲望却是……

8 年前

国际家居 · 简约 · 高级灰

8 年前

知识产权那点事 · “名创优品”商标引发商标权及不正当竞争纠纷

7 年前

思想聚焦 · “你什么都好，就是风水不好”

7 年前

ONE一个 · 他爱不爱你，性会告诉你

7 年前