独家 | 在CMU对话德扑AI团队：解密1+2技术架构，不攻反而不败

TechWeb · 公众号 · 科技媒体 · 2017-04-05 20:52

正文

“在德扑比赛中，顶级高手会尝试寻找对手的弱点，并展开攻击”，创新工场AI工程院技术VP李天放说。李天放既有技术背景，也是一名德扑高手。

Dong Kim是今年1月德扑人机大战中的一位人类选手，这位28岁的韩裔美国人回忆说，每一天Libratus都会进步，人类选手很难找到它的弱点或漏洞。即便找到一个，第二天就会消失不见。这让他感到绝望。

但也许他根本就感觉错了。“有人类玩家说找到了漏洞，其实不一定”，Brown对量子位说：“这可能是Libratus的一种战术，去搅乱对手的策略”。

△ Brown身后是他的电脑

不能用人类的思维去衡量AI。让Sandholm记忆犹新的是，1月的德扑人机大战进行到尾声，当时AI早已遥遥领先，所有人都认为Libratus会趋近于保守。

“但它反而越来越激进”，Sandholm说特别是最后几局，非常出人意料。

比方，为了一个很小的底池推了All in，或者下注额只有底池的十分之一。“有时候Libratus的策略会被认为是臭手”，但事后复盘Sandholm说这个德扑AI尝试了很多令人叫绝的方法，其中包括各种策略的诈唬。

诈唬也不是人教的，而是机器自己学会的。

怎么学？“诈唬是特别重要的技能，系统在学习中发现，如果有一手烂牌，直接诈唬能赢更多，所以它就学会了”，Brown告诉量子位。

“这就是AI特别奇妙的地方”，Brown坐在自己CMU标配的上一代Aeron座椅上说，“很多人看到Libratus能诈唬，觉得很了不起”，但在这位博士的眼中，诈唬这种看似与心理有关的人类技能，机器是可以通过算法学会的。

为什么Libratus能比前代更厉害，进步在何处？Brown举了两个例子。

比如，对于K-High Flush(最大牌为K的同花)和Q-High Flush(最大牌为Q的同花)，这两手牌对于Claudico来说是等值的，而Libratus则会做一个精确的区分。实际上，Libratus会对每一手牌进行单独的处理，根据不同的牌面制订出不同的战略。

再比如，对于250元的下注，是当成200元还是300元来计算？那么249或者251呢？实际上，Libratus不会尝试聚类，而是马上实时计算，得出胜算最大的策略。

△ Sandholm讲解冷扑大师

Sandholm则从全局的角度，打开Libratus的大脑，向量子位逐一讲解了构成这个扑克AI的三个主要模块。其中一个用于赛前，两个用于赛中。

模块一： Nash equilibrium approximation before competition(赛前纳什均衡近似)

这个模块把最重要的博弈信息进行抽取，比如针对某一手牌对应的战略，然后再应用强化学习等方法，继续寻求提高和改进。这里使用了一个新的算法：蒙特卡洛反事实遗憾最小化。在这个模型的帮助下，Libratus自己学会了德扑，而且比以前速度更快。

模块二： Endgame solving(残局解算)

这是Libratus最重要的部分，Sandholm说。实际上Claudico也有这个模块，但那个版本几乎不起作用。而新的版本不会再给对手留下漏洞，这个过程不断进行，对手新出一招后，会继续展开新的残局解算，这被称为Nested Endgame Solving。

德扑这类不完美信息博弈，不能拆解为可以独立解决的子博弈。所以Libratus采用的残局解算的方法应对，想进一步深究，可以查看Brown和Sandholm的论文。

模块三： Continual self-improvement(持续自我强化)

比赛中人类高手会寻找Libratus的漏洞，并展开有针对性的攻击。这个模块的作用就是发现问题所在，找到更多细节进行自我强化，然后得到一个更好的纳什均衡。