专栏名称: 大家-腾讯新闻
精选大家文章,畅享阅读时光。
目录
相关文章推荐
51好读  ›  专栏  ›  大家-腾讯新闻

黑爪:DeepMind研制阿尔法狗的使命,当然不是要下赢围棋

大家-腾讯新闻  · 公众号  · 美文  · 2017-05-31 17:26

正文

请到「今天看啥」查看全文



我们需要记住,DM的AI有两个关键词,一是通用,一是学习。他们所有的算法都从元数据开始进行自主学习,从而掌握某项任务,这与预编程的人工智能有本质的不一样。此外,DM还强调,他们希望所有的系统能够通用,也就是说,希望同一个系统,或同一套算法可以有跨领域的广泛应用。公众所熟知的赢了国际象棋的IBM传奇深蓝,以及近年来的沃森系统,它们都仍然属于窄AI范畴,也就是说,它们是为了解决某个特定问题量身打造的AI,因而只能解决那一类问题。


而阿尔法狗这一类DM的AI,事实上则可以被叫做“通用人工智能”AGI(Artificial General Intelligence),目标既不针对特定任务,也无涉预编程。这就引出了眼下被热议的“强化学习”技术(reinforcement learning)。



描述强化学习其实非常简单,它有个一目了然的框架,框架内有两个内容:系统和环境。这里的“系统”就是我们说的AI,而它会发现自己处于某个“环境”当中,要达成某项目标。


“系统”与“环境”之间进行双向交流:首先,它通过其感知仪器来对“环境”进行观察,在DM的学习过程中,通常使用的是视觉,也就是说,“系统”观察到的就是像素。这些观察结果往往有很多“噪音”,并且信息不完整,因为现实世界本身就十分混乱,充满干扰,而且永远不可能对一件事获得真正完整的信息。“系统”的任务,便是要在这样的混乱条件下,创建一个可能的、最好的统计模型;这个最好的模型一旦建立,第二项任务,便是在当前的时间点上可供选择的一系列行为中,选出最好的一个,向目标靠近。而一旦“系统”确定了某一个行为是最佳之后,“系统”随即将这个行为作为输出,并得以执行。其结果,有可能会,也有可能不会,对当前的“环境”带来任何改变。但无论如何,它都成为新一轮观察的驱动。所以这个“系统”尽管表面上看,可以通过这样一个简单的框架图形来描述,但它事实上隐藏了很多的复杂性。


解决了隐藏其后的复杂性,其实就拥有了足够的智能来进行几乎一切学习。我们认同这个观点,因为我们知道,包括人在内的所有脊椎动物,都是这样来学习的。人类大脑中,完成这一“强化学习”过程的是多巴胺系统。


了解了创造出阿尔法狗的DM公司的通用智能使命,以及这一通用智能的学习原理之后,不难看出,各类游戏其实都是其算法的绝佳测试平台。一两年前连线杂志 “Wired” 就有过长文报道,DM最初使用经典的80年代雅达利游戏(Atari )来测试他们的算法。当AI在玩雅达利时,它所获得的输入没有别的,就是纯粹的像素,完全就像人在看着屏幕学,屏幕尺寸大概是200*150,所以它所得到的就是每帧3万个点,目的也很简单,一切从头琢磨自学,为了拿高分。


在基本的学习能力具备后,再通过模拟海马体的工作原理,来为智能体增加能力,例如学习抽象概念,以及增进长期记忆。







请到「今天看啥」查看全文