点评 | 王小川评 AlphaGo 2.0：和 1.0 原理大不同，更接近于人

雷峰网 · 公众号 · 科技媒体 · 2017-05-23 15:41

正文

请到「今天看啥」查看全文

这次，王小川再次在知乎上发表了自己的看法，他断言 AlphaGo 2.0 已经摆脱了监督学习，不再需要人类下围棋的历史数据，而是只通过 “增强学习”，另外，两台 AlphaGo 自我对战学习如何下棋，并达到登峰造极的地步。此次在与柯洁的对弈中，AlphaGo 2.0 的棋风完全异于常人，在王小川看来这正是这场对弈最大的看点。

搜狗 CEO 王小川

该来的终于来了。

一年前 AlphaGo 发布，看完论文后我就在知乎上发文预测机器会完胜人类。好些行业朋友不相信，为此我收了很多 “智商税”，之后微信发红包一直发到春节才发完。此外我还立了两个断言：一个是 Google 很有可能再研发出 AlphaGo 2.0，摆脱 “监督学习”，不再需要人类下围棋的历史数据，而是只通过 “增强学习”；两台 AlphaGo 自我对战学习如何下棋，并达到登峰造极的地步。从公开的资料判断，此言中了。这意味着什么呢，又有什么看点呢？

技术重大提升：和 1.0 原理大不同更接近于人

AlphaGo 1.0 是巧妙地混合了三种算法：蒙特卡洛树搜索 + 监督学习 + 增强学习。其中蒙特卡洛树搜索是一种优化过的暴力计算，比 1997 年深蓝的暴力计算更聪明。而这里的监督学习，是通过学习 3000 万步人类棋谱，对六段以上职业棋手走棋规律进行模仿，也是 AlphaGo 获得突破性进展的关键算法。而增强学习作为辅助，是两台 AlphaGo 从自我对战众中学习如何下棋，据悉对棋力提升有限。