专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
黄建同学  ·  还记得Figure那个分拣机器人吗?Bret ... ·  19 小时前  
声网  ·  MiniMax、星野、智谱清言,这些 AI ... ·  2 天前  
声网  ·  MiniMax、星野、智谱清言,这些 AI ... ·  2 天前  
爱可可-爱生活  ·  【[91星]chatterbox-strea ... ·  2 天前  
体验进阶  ·  终于抢到邀请码了!比一比Lovart和Sti ... ·  2 天前  
体验进阶  ·  终于抢到邀请码了!比一比Lovart和Sti ... ·  2 天前  
宝玉xp  ·  英伟达 CEO 怒怼 Anthropic ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

独家专访 | 强化学习教父Richard Sutton:也许能在2030年之前实现强人工智能算法

机器之心  · 公众号  · AI  · 2016-12-28 12:14

正文

请到「今天看啥」查看全文



这个实验室的名字 RLAI 似乎在说明强化学习(RL)是所有人工智能问题的解决方案。但是,Sutton 博士在这次采访之中给了我们一个不同视角的解释。他指出有些人认为强化学习只是人工智能问题的强化,但实际上强化学习问题是实现人工智能的一种抽象的方法。他说:「我想说我们正在使用一种实现人工智能的方法,『强化学习与人工智能』是很有意思,其中的英语单词『and』意味着要么是两个单独的主题,要么就是互相包容的,它可能是『and』,也能是『or』。因为强化学习既是人工智能的一个子集,也是人工智能的一个源头。其中的关系挺模糊的。我们也仍还在寻找答案。」


强化学习是现在人工智能领域里面最活跃的研究领域之一,它是一种用于学习的计算方法,其中会有一个代理在与复杂的不确定环境交互时试图最大化其所收到的奖励(reward)。现在,如果你是一个强化学习的初学者,由 Richard Sutton 和 Andrew Barto 合著的《Reinforcement Learning : An Introduction》可能就是你的最佳选择。这本书提供了关于强化学习的简单明了的关键思想和算法的解释。Richard Sutton 和 Andrew Barto 的讨论从该领域的知识基础的历史延伸到了最新的发展的应用。但是,在 20 世纪 70 年代的时候,尽管机器学习被人所知且日益流行,但那时还没有出现强化学习这样的东西。


近日,机器之心走进了阿尔伯塔大学与这位强化学习的教父聊了聊。让我们看看 Sutton 在这次独家专访中说了些什么。


机器之心:强化学习是如何起步的?编写算法的起点是什么?


Sutton: 这一直以来都是一个明显的思想——一个学习系统想要一些东西而且某些类型的学习方式缺失了。在 20 世纪 70 年代,Harry Klopf(1972,1975,1982)写了几篇解决类似问题的报告。他认识到适应性行为(adaptive behavior)的关键方面是失败(being lost),而那时候学习领域的研究者几乎都将关注的重心移到了监督学习上面。试错学习的关键思想却缺失了。我们试图弄明白其中的基本思想,然后发现他是对的。这一思想还从未在任何领域得到过研究,尤其是在机器学习领域;控制论、工程学和模式识别等领域也都没有研究——所有这些领域都忽略了这个思想。你可以在 50 年代看到一些早期的研究工作,那时候有人谈论过试验神经(trial neuro),但最后它还是变成了监督学习。它有目标和训练集,并且尝试记忆和从中进行归纳。


我们现在在谈论深度学习和强化学习,这很有意思。最开始的时候,情况也是类似——试图将强化学习和监督学习区分开。我们研究的目的是获得一个可以学习的系统,那就够了。所以强化学习找到了一种可以表现和最大化这个世界的方法,而监督学习只是记忆被给出的样本然后将其泛化到新样本上——但它们需要被告知该做些什么。现在,强化学习系统可以尝试很多不同的事物。我们必须尝试不同的事物,我们必须搜索动作和空间或定义学习来最大化世界。这个思想后来被丢弃了,Andrew Barto 和我则逐渐意识到这并没有出现在之前的研究中,而这是我们需要的。简单来说,这就是我们成为了先驱的原因。


编辑注:实际上,自 1979 年以来,Sutton 博士就一直在开发和推广强化学习。和其他人一样,Sutton 博士感觉到强化学习已经在早期的控制论和人工智能研究中得到过了探索。尽管强化学习显然受到最早期的一些关于学习的计算研究的启发,但这些研究中的大部分都转向了其它方面,比如模式分类、监督学习和适应性控制,或他们整体上放弃对学习的研究。此外,那时候计算机的计算能力还是很有限的,所以要将强化学习应用到真实世界问题上是很困难的,因为强化学习涉及到大量试错,之后才能收敛到一个最优策略,这可能会需要非常长的时间。







请到「今天看啥」查看全文