专栏名称: 品玩
有品好玩的科技,一切与你有关
目录
相关文章推荐
纳米人  ·  废塑料太阳能制氢,Nature ... ·  昨天  
纳米人  ·  废塑料太阳能制氢,Nature ... ·  昨天  
36氪  ·  波音787第一次坠毁背后 ·  昨天  
36氪  ·  2.9元咖啡坑惨了库迪店员 ·  2 天前  
51好读  ›  专栏  ›  品玩

AlphaGo:人类围棋驶向 2.0 时代的船票

品玩  · 公众号  · 科技媒体  · 2017-05-24 09:00

正文

请到「今天看啥」查看全文


为什么要从单机箱改成分布式计算?这是因为在围棋对弈中时间是非常重要的因素,你用的时间比对手少,对手就可能比你提前进入读秒的紧张阶段,被迫在思考不足的前提下落子,而你却有更多时间地靠。AlphaGo 采用一种名叫蒙特卡洛树搜索的技术,不停地对下一步的棋盘、再下一步和再再下一步的棋盘可能出现的状况进行大量的计算,从而找到结果最优的下一步落子位置。而这个搜索进程需要时间,因此每一手之间给 AlphaGo 越多的时间,它能计算出越好的结果(当然,时间对结果优劣程度的帮助是递减的)。

在最早的 AlphaGo 论文中我们可以看到,从单机箱向分布式计算演进,在树形搜索进程数量在 40 不变的前提下,AlphaGo 的等级分获得了一次非常不错提升,从 2890 提升到了 3140。

但如果继续增加 CPU 核心 和 GPU 数量呢?在前面第一个图表里我们看到,搜索进程数增加到了 64,等级分继续提高到 3168: CPU 和 GPU 所用的数量暴增了 60%,等级分却只提升了 28。 显然堆 CPU 和 GPU 不是一个完美的解决方案,接下来怎么办?

在去年 3 月和李世乭的交战中,AlphaGo 首次用到了一个名叫 TPU 的东西。TPU 全名 Tensor Processing Unit(张量处理单元),专门用于机器学习训练和推理深度神经网络的处理器,非常适合 TensorFlow 开源机器学习框架。

Cloud TPU

而 AlphaGo 就是用 TensorFlow 训练出来的,跑在 TPU 上性能提升巨大,可以说跟之前基于 CPU+GPU 的分布式计算系统相比,获得了一次重大的升级。从李世乭比赛之后,AlphaGo 都迁移运行在 TPU 上了。

但这还不是 AlphaGo 的 2.0 时代,更像 1.3。

真正让 AlphaGo 升级到 2.0 的是它的学习思路变化。 在和李世乭交战之前,AlphaGo 的训练方式就是学习人类的棋谱。然而人类的对弈思路相对来说已经比较固定,在相当长的一段时间内已经没有太多充满创造力的新招式出现了,因此 DeepMind 给 AlphaGo 设定了一个新的学习方式,让它摒弃人类的思维定式自己跟自己下棋,左右互搏。







请到「今天看啥」查看全文