正文
为什么AlphaGo会重出江湖呢?我想可以从AlphaGo与深蓝的不同来考虑。深蓝采用的是α-β搜索框架,加上大量的人类知识,在技术上已经没有什么发展空间。而AlphaGo采用的是蒙特卡洛树搜索框架,加上深度学习和深度强化学习。在这样一个框架下,深度学习,尤其是深度强化学习在计算机围棋上的天花板究竟有多高?还是一个未知数,从技术的角度来说,还有很大的研究空间,我想这是AlphaGo重出江湖的重要原因,围棋在这里只是作为一个应用对象,目的还是研究强化学习等方法。
顺便在这里说一下,
有人认为AlphaGo的成功是深度学习的胜利,我认为这一看法是片面的。具体来说,蒙特卡洛树搜索引入到计算机围棋中,是一个很大的飞跃,深度学习和强化学习的引入,是又一次飞跃。因此AlphaGo的成功是蒙特卡洛树搜索加深度学习的胜利。如果再上升一个层次来考虑,则是人工智能中传统的符号主义加连接主义的成功。如果再进一步上升一个层次,则是理性加感性的成功。
因此,在今天深度学习大热的情况下,不能忽视传统方法的作用。传统方法与深度学习具有互补性,应该加强这方面的研究,而不是一窝蜂式的涌向深度学习。
图2. 韩国棋手李世石对战AlphaGo
那么这次的Master与去年3月份的AlphaGo有什么不同呢(为了叙述方便,下文中AlphaGo特指去年3月的版本,Master特指现在的版本)?到目前为止,DeepMind公司还没有透露出任何信息,只能从表面现象去分析、猜测。我并不懂围棋,为了了解Master的特点,在网上看了不少专业棋手对Master棋谱的分析,一个突出的感受是,Master常常会走出一些超出职业棋手想象的惊人之步,很多高手连呼看不懂,但又找不出其破绽。古力在其微博上说,Master的出现“已经彻底颠覆了我们棋手对局势原有的掌控、判断”,柯洁也评论说Master“给我们棋手带来的震撼”。虽然AlphaGo也有出乎职业棋手意外的着法,但是这次Master这样的走法更多,更出乎意外。鉴于此,我曾经给出一个猜测:“AlphaGo训练时用到了16万人类棋谱,加上自己左右互搏产生的3000万棋谱,以及人类总结的几万个模式。
而这次的Master很可能是从0开始学习得到的结果(指没有利用任何人类棋谱和知识,依靠基于强化学习的左右互搏进行学习),在蒙特卡洛搜索树的框架下,加上深度强化学习方法,是可以做得到的。这也是为什么Master让职业棋手感觉到被颠覆的原因,因为没有任何人类的影响。AlphaGo在去年3月时虽然惊人的走法,但好像没有这次多,也没有这次大胆,因为3月的AlphaGo利用了16万的人类棋谱和数万个人类总结的模式”。虽然事后DeepMind公司说Master还是用了人类棋谱,但是很可能更加加强了基于强化学习的左右互搏的成分,弱化了人类棋谱的作用。事实上,DeepMind公司也确实在试探从0学习的系统,虽然还没有推出。