专栏名称: 雷峰网
中国智能硬件第一媒体
目录
相关文章推荐
新浪科技  ·  【#复活恐狼公司计划复活渡渡鸟##复活恐狼公 ... ·  15 小时前  
新浪科技  ·  【净利跌两成,均价降4万! ... ·  14 小时前  
新浪科技  ·  【#iPhone16e欧洲首月销量低于SE系 ... ·  17 小时前  
新浪科技  ·  【#雷军回应YU7能否复刻SU7成功#:#雷 ... ·  昨天  
新浪科技  ·  【#金价年内涨超25%#】#金价冲破3350 ... ·  2 天前  
51好读  ›  专栏  ›  雷峰网

点评 | 王小川评 AlphaGo 2.0:和 1.0 原理大不同,更接近于人

雷峰网  · 公众号  · 科技媒体  · 2017-05-23 15:41

正文

请到「今天看啥」查看全文


这次,王小川再次在知乎上发表了自己的看法,他断言 AlphaGo 2.0 已经摆脱了监督学习,不再需要人类下围棋的历史数据,而是只通过 “增强学习”,另外,两台 AlphaGo 自我对战学习如何下棋,并达到登峰造极的地步。此次在与柯洁的对弈中,AlphaGo 2.0 的棋风完全异于常人,在王小川看来这正是这场对弈最大的看点。

搜狗 CEO 王小川

该来的终于来了。

一年前 AlphaGo 发布,看完论文后我就在知乎上发文预测机器会完胜人类。好些行业朋友不相信,为此我收了很多 “智商税”,之后微信发红包一直发到春节才发完。此外我还立了两个断言: 一个是 Google 很有可能再研发出 AlphaGo 2.0,摆脱 “监督学习”,不再需要人类下围棋的历史数据,而是只通过 “增强学习”;两台 AlphaGo 自我对战学习如何下棋,并达到登峰造极的地步。 从公开的资料判断,此言中了。这意味着什么呢,又有什么看点呢?

技术重大提升:和 1.0 原理大不同 更接近于人

AlphaGo 1.0 是巧妙地混合了三种算法:蒙特卡洛树搜索 + 监督学习 + 增强学习。其中蒙特卡洛树搜索是一种优化过的暴力计算,比 1997 年深蓝的暴力计算更聪明。而这里的监督学习,是通过学习 3000 万步人类棋谱,对六段以上职业棋手走棋规律进行模仿,也是 AlphaGo 获得突破性进展的关键算法。而增强学习作为辅助,是两台 AlphaGo 从自我对战众中学习如何下棋,据悉对棋力提升有限。







请到「今天看啥」查看全文