专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
黄建同学  ·  牛x! ... ·  昨天  
量子位  ·  实测豆包1.6,最火玩法all in ... ·  昨天  
新智元  ·  SIGGRAPH ... ·  2 天前  
新智元  ·  LeCun亲自出镜打脸质疑者!憋了20年的A ... ·  2 天前  
爱可可-爱生活  ·  AI时代,为什么还要学物理化学语文?(解读见 ... ·  2 天前  
51好读  ›  专栏  ›  新智元

【美国基金会报告】10大领域 AI 超越人类时间表:机器智能大爆发

新智元  · 公众号  · AI  · 2017-06-22 14:07

正文

请到「今天看啥」查看全文


“指标”(metric)是衡量问题进展的一种方式,通常与测试数据集有关。给定的一个问题同参更会有几个metric,但有时是从0开始,并需要提出一些metric…

measure[ment]是在给定metric上,特定时间,特定代码库/团队/项目的得分。


视觉领域


1. 图像分类


视觉领域中,最简单的子问题可能是图像分类,也即让计算机识别图像中存在什么物体。从 2010 年到 2017 年,ImageNet 竞赛一直是业界密切关注的热点。


ImageNet 数据集示例


图像分类不仅包括识别图像中的单个物体,还包括对它们进行定位,并且确定哪些像素属于哪个物体。MSRC-21 指标是专门为此任务而建的:


MSRC-21 示例


2. 看图回答问题(Visual Question Answering)


理解图像涉及的不仅仅是识别其中的物体或实体,也包括从图像中识别事件、关系和场景。理解图像不仅需要进行图像识别,还要掌握语言、世界建模和“图像理解”(image comprehension)。目前在这方面有几个数据集。下图来自 VQA,其中图像来自 Microsoft COCO 图像集,问题和问答都是由 Amazon Mechanical Turk 工作人员提出的。


VQA 数据集示例


那么,在视觉领域,计算机都在什么时间、以什么方式超越人类了呢?


最具代表性的是,在图像识别任务上,2016 年,微软亚洲研究院(MSRA)首先超越人类水平(红色虚线,下同)。



其他,在较小的数据集任务中,比如 CIFAR-10 数据集图像识别任务,2015 年 ICML 论文“Striving for Simplicity:The All Convolutional Net”率先突破人类水平。



更早一些,在街景房屋编号数据集(SVHN)上,2013 年纽约大学,包括 Yann LeCun 在内的学者提出“Regularization of Neural Networks using DropConnect”,率先超越了人类水平。



不过,在看图问答问题方面,计算机距离人类水平还有一定距离。下图是 COCO VAQ 1.0 开放问答任务,根据目前统计结果,计算机距离人类水平还有十几个百分点。




玩游戏


总体上,游戏是一个高效的开放式研究框架, 所有的智能都能在游戏中捕捉到。但是,抽象的游戏,比如象棋、围棋和跳棋等,可以在不需要人类世界或者物理世界知识的前提下玩。


虽然,这一领域大部分的游戏已经被计算机攻克,达到了超越人类的水平,但是现在仍然有一些游戏需要解决,特别是,考虑到不同的起点,一些游戏需要智能体从任意的抽象游戏中有效地学习规则(例如,对规则的文本描述或者是正确玩法的例子)。


1. 抽象的策略游戏


复杂的抽象策略游戏中,机器系统已经达到了超越人类的水平。其中一些是规则启发的和启发式的(heuristics),在一些例子中,则结合了机器学习的技术。


抽象策略游戏的代表之一是国际象棋,我们都记得 1997 年 5 月 11 日,IBM 的 Deep Blue 对战国际象棋大师卡斯帕洛夫并取得胜利。不过,Deep Blue 在这份统计中,并不算作计算机玩国际象棋超越人类(见图中 Deep Blue 红色拐点)。


根据这份统计,2006 年 5 月 27 日,英国计算机国际象棋程序 Rybka 1.164 bit 取胜才算开了先河。这之后,计算机国际象棋程序表现越来越好,公认超越人类水平。



2. 实时视频游戏


计算机视频游戏是一个非常开放的领域,很可能,现在或者未来的一些游戏过于复杂,进而成为“AI专属”的。同时,在一些进阶的游戏中,随着复杂度的不断增加,我们可能会看到很多有趣的进步。


  • Atari 2600 Alien:人类的平均水平在6800分左右。2015年3月,DQN模型的得分是在3000分左右。2015年11月底,DDQN得分逼近4000,Duel得分超过4500,但是距离人类水平都还有一定的差距。

  • Atari Amidar:人类的平均水平在1700分左右,2015年3月,DQN的得分只有700左右,2015年11月底,DDQN和Duel都超越了人类水平,得分分别为1700和2300左右。

  • Atari2600 Assault:人类的平均水平是1500分。DQN、DDQN和Duel都已经全面超越人类。

  • Atari 2600 Asterix:人类的平均水平是8000分。2015年3月,DQN的得分是6000分,2015年11月底,DDQN得分达到17000分,Duel得分近30000。

  • Atari 2600 Gravitar:人类的平均水平在2800分左右,DQN、DDQN和Duel的得分都在600以下。


注: DeepMind 首先在2015年初发布了 Nature文章,提出DQN。在2015年一年内提出了Double DQN,Dueling Network。后两者极大提升了DQN的性能,目前的改进型DQN算法在Atari游戏的平均得分是Nature版DQN的三倍之多。


语言和文本


语音识别

Switchboard上语音识别词错误率变化,衡量标准:Hub500







请到「今天看啥」查看全文