专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
爱可可-爱生活  ·  今日推介(第1800期):语言模型内在决定如 ... ·  22 小时前  
Web3天空之城  ·  OpenAI首席产品官凯文·威尔最新深度解读 ... ·  昨天  
Web3天空之城  ·  OpenAI首席产品官凯文·威尔最新深度解读 ... ·  昨天  
黄建同学  ·  1X公司发布了最新的AI模型Redwood, ... ·  昨天  
宝玉xp  ·  又算对了-20250612021814 ·  2 天前  
51好读  ›  专栏  ›  量子位

新AlphaGo这么强!36小时从0自学成大师,100:0把李世乭版秒成渣渣 | Nature论文

量子位  · 公众号  · AI  · 2017-10-19 09:59

正文

请到「今天看啥」查看全文


如上图所示,AlphaGo Zero也只用了4个TPU。

AlphaGo Zero到底多厉害,且看官方公布的成绩单:

  • 3小时后,AlphaGo Zero成功入门围棋。

  • 仅仅36小时后,AlphaGo Zero就摸索出所有基本而且重要的围棋知识,以100:0的战绩,碾压了当年击败李世乭的AlphaGo v18版本。

  • 21天后,AlphaGo Zero达到了Master的水平。这也就是年初在网上60连胜横扫围棋界的版本。Master后来击败了柯洁。

  • 40天后,AlphaGo Zero对战Master的胜率达到90%。也就是说,AlphaGo Zero成为寂寞无敌的最强围棋AI。

DeepMind主要作者之一的黄士杰博士总结:AlphaGo Zero完全从零开始,初始阶段甚至会填真眼自杀。AlphaGo Zero自学而成的围棋知识,例如打劫、征子、棋形、布局先下在角等等,都与人类的围棋观念一致。

“间接呼应了人类几千年依赖围棋研究的价值”,黄士杰写道。

技术细节

DeepMind的最新研究成果,已经全文发布在《自然》杂志上。这也是第二篇在《自然》杂志上发表的AlphaGo论文。

论文摘要

人工智能的长期目标是创造一个会学习的算法,能在特定领域中从一块白板开始,超越人类。最近,AlphaGo成为第一个在围棋游戏中打败世界冠军的程序。AlphaGo中的树搜索使用深度神经网络来评估位置、选择落子。这些神经网络用人类专家的棋谱来进行监督学习的训练,并通过自我对弈来进行强化学习。本文介绍了一种仅基于强化学习的方法,除了游戏规则之外,没有人类的数据、指导或者领域知识。AlphaGo成了它自己的老师:一个被训练来预测AlphaGo自己落子选择以及对弈结果的神经网络。这个神经网络提高了树搜索的强度,提高了落子质量、增强了自我对弈迭代的能力。从一块白板开始,我们的新程序AlphaGo Zero的表现超越了人类,并以100-10击败了以前曾打败世界冠军的AlphaGo版本。

AlphaGo Zero的强化学习

上面提到AlphaGo使用了一个神经网络,这是怎么做到的?







请到「今天看啥」查看全文