专栏名称: 虎嗅APP
有视角的商业资讯交流平台
目录
相关文章推荐
新浪科技  ·  【老外急了!#Labubu成跨境电商搜索TO ... ·  昨天  
新浪科技  ·  【#现货黄金站上3390#】现货黄金站上33 ... ·  昨天  
51好读  ›  专栏  ›  虎嗅APP

AlphaGo 其实挺“笨”的

虎嗅APP  · 公众号  · 科技媒体  · 2017-05-23 21:05

正文

请到「今天看啥」查看全文



好了,段子讲完了,该言归正传了。免得被唾沫淹死,首先申明一下,AlphaGo 确实很厉害的,也不简单。但是,为什么又说,AlphaGo 挺“笨”的呢?

我们知道,围棋的搜索空间很大,有3的19x19次方个状态,要在这么大的空间去找最优算法,一个一个看是不可能的,所以被认为人类智能的一个高点,解决时需要优化搜索。人是根据一些输入空间和参数较少的模式识别来记忆和搜索,而机器采用的却是大数据,大记忆和大计算来实现的。说到 AlphaGo 后面的智能和算法,就不能不说深度学习(DL),强化学习(RL),和蒙特卡洛树搜索(MCTS)。

深度学习,主要用来学习和建立两个模型网络。一个是评测现在的棋盘状态如何,也就是说给当前的棋盘状态打个分,评估一下赢的期望值,它就是价值网络(Value Network)。输入是棋盘19x19每个点的状态,有子或无子,输出是赢的期望值。按理说,如果要是有一个聪明的数学家或是机器足够聪明,说不准他马上就能在黑板上写一个高级的数学公式。很遗憾,现在还没有,所以,只能用多层的神经元网络来近似表示这个高级的函数。这么来说,是不是有点“笨”。

二是根据现在的棋盘状态,决定下一个棋子该如何走才能有最大的赢的概率,它就是 AlphaGo 的策略网络(Policy Network)。也就是说,给一个19x19的棋盘状态,在所有空的地方,哪个是最佳的选择,会有最大的赢率。同样,也可以用一个函数来描述,输入是当前棋盘状态,输出是每个空处和它期望的赢的期望值,但这个函数还没有一个高级的数学公式,所以,最后也求助于多层神经网络。


但是,这两个深度学习网络模型,怎么训练出来的呢?这时,不得不说随机梯度下降(SGD),这个“笨”办法。









请到「今天看啥」查看全文