刚颠覆了围棋，人工智能又要攻陷德州扑克！

互联网观察网 · 公众号 · 科技媒体 · 2017-01-13 17:00

正文

请到「今天看啥」查看全文

2015年，计算机程序 Claudico 输给了一个专业扑克玩家团队，并且是以较大的劣势输掉的比赛。此外，最近，在年度计算机扑克竞赛中，人们发现，基于“浓缩”的计算机程序有着大量的缺点。其中4个使用了这一方法的计算机程序，其中包括从2016年来一直位列前茅的程序，被认为使用了一个局部最佳响应的技巧，使得在一个策略能输掉多少这一决策上，产生一个更加接近下限的答案。所有这四个基于“浓缩”方法的程序都可能会输得很惨，用量化来表示，是每局都弃牌所属的四倍。

DeepStack 采用了一个完全不同的方法。它持续地使用CFR中的循环推理来处理信息不对称的问题。但是，它并不会计算和存储一个完整的优先策略用于博弈，所以也不需要进行简要的提炼（浓缩）。反之，在游戏中，它会在每一个具体的场景出现时就进行考虑，但是并不是独立的。

通过使用一个快速的近似估计来代替某一种深度的计算，它能避免对整个游戏的剩余部分进行推理。这种估计可以被看成是 DeepStack 的直觉：在任何可能的扑克情境下，持有任何可能的个人牌的牌面大小的直觉。

最终，从某种程度上来说与人类的很像的 DeepStack 的直觉，是需要被训练的。我们使用了随机生成的扑克情景用深度学习进行训练。最终，我们证明了，DeepStack从理论上来说是可行的，比起基于“浓缩”的方法，它能产生从实质上需要更少地探索的策略，同时，它也是世界上首个在HUNL游戏中击败人类专业玩家的计算机程序，平均赢率超过450 mbb/g。（mbb/g,milli-big-blinds per game ,是用于衡量扑克玩家表现的指数，50 mbb/g 可以就认为是一个较大的优势，750mbb/g 就是对手每局都弃牌的赢率。）

神经网络机器学习系统第一次战胜人类职业玩家

跟职业选手对抗结果

为了把 DeepStack 跟人类专家相比较，我们雇用了国际扑克联盟（International Federation of Poker）里的专业扑克选手。选手们在4周中完成3000局比赛。为了激励选手，给排名最高的前三（以AIVAT计）分别予以 5000加元、2500加元和1250加元的奖励。比赛在2016年11月7日和12月12日之间在线上举行，扑克选手可以选择最多同时玩4局，这在线上很常见。总共有来自17个国家的33名选手跟 DeepStack 进行了较量。DeepStack 跟每个人比赛的表现如表 1：

表 1：跟职业扑克选手较量结果，以 AIVAT 和所赢得的筹码进行衡量，以 mbb/g 为单位。

表 2：向前分解根据在哪一轮而具体分析。F, C, 1/2P, P ,2P 和 A 分别是如下的缩写：弃牌（Fold），跟进（Call），二分之一底池押注（half of a pot-sized bet），底池押注（a pot-sized bet），双倍底池押注（twice a pot-sized bet）以及全注（All in）。最后一列表示当超过深度限制的时候用到了哪个神经网络：flop 网络， turn 网络，或者辅助网络。

比赛速度

分解计算和神经网络评估在一个 GPU 上实现。这使得它可以一次快速批量调用反事实价值网络上多个子公共树。这是让 DeepStack 变快的关键。在 Torch7 中开发，在 NVIDIA GeForce GTX 1080 显卡上运行。很多以上的实现手段都是为了让 DeepStack 快速运行，理想上是像人打牌一样快。表 3 展示了 DeepStack 和人类在前一步骤的之后和提交下一个步骤之前的平均间隔时间。平均看来，DeepStack 比起人类选手快很多。不过我们要记住人类选手同时可以进行4局比赛（虽然很少有人同时进行两局以上），所以当轮到人类选手比赛时，它可能正在另外一盘比赛上。