专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
zartbot  ·  从AI落地的视角看看Infra的需求 ·  昨天  
zartbot  ·  从AI落地的视角看看Infra的需求 ·  昨天  
爱可可-爱生活  ·  【[90星]torchvista:用一行代码 ... ·  2 天前  
彭涛说  ·  我跟AI打了个视频电话... ·  2 天前  
彭涛说  ·  我跟AI打了个视频电话... ·  2 天前  
AI产品阿颖  ·  Anthropic CPO:传统程序员正在谢幕 ·  3 天前  
51好读  ›  专栏  ›  机器之心

特写|人工智能背后的人

机器之心  · 公众号  · AI  · 2017-04-05 11:56

正文

请到「今天看啥」查看全文



数据庞大又开源,ImageNet 很快成为成为研究图像识别的首选。不论 Andrew Ng(吴恩达)还是 Jeff Dean,涉足这一领域研究者都使用过 ImageNet。但 ImageNet 有自己的弱点,标注框太大、标注方式少和不时出现的错误,使它难以被用来训练实际应用的算法模型。


人工智能公司们必须想尽办法,积累符合自身应用方向,标注得更细致、更准确的数据。在初创公司招聘工程师的需求中,「有收集标注数据的能力」有时也会被写进其中。某种程度上,高质量的标注数据决定了一家人工智能公司竞争力。


尽管互联网的确催生了浩如烟海的内容,但标注这件需要耐心和专注的「小事」,暂且还要靠人的帮忙。



在专业的数据标注公司出现前,众包平台往往是大部分公司的选择。


人们认为灵活性更高的众包方式能适应不稳定的数据需求,价格成本也更低。某知名数据众包平台据称拥有超过 5,000 名数据标注专员,单日可处理超过 200 万条数据,能「稳定提供数据标注服务」。


数据标注是所有数据众包平台的核心业务,除此之外还有数据清洗、数据采集等等


不过从单日单人数据比(400 条数据/人)可以推测出,其标注质量也许并非所说的那么可靠。由于参与众包标注的工作者数量很多,专业背景和工作能力参差不齐,「收集到的标注内容中存在噪声甚至错误,不能直接作为正确的标注使用」早已是不争的事实。如何解决众包平台的质量缺陷,已经成为近年来博硕士论文的议题之一。


通过数据交易平台购买已标注好的数据包也是一种选择。但问题似乎又绕回为什么人工智能公司要自己标注数据:不同的应用方向需要的数据内容不同,甚至标注方式也不同。


秦娇目前所在的这家公司,瞄准的就是这片市场——人工智能公司需要的数据既要根据需求定制,又要保证标注质量,同时数量还十分庞大。大部分人工智能公司自身和众包平台都无法同时满足这三种要求,因而诞生了专业的数据标注公司。


这家「数据加工」公司的一二层,全部是负责标注数据的员工。为满足不同订单需求,员工们被划分成不同小组:


有的小组负责勾画图片中人体的关节点,将复杂的瑜伽姿势抽象成点和线,可以用来训练识别人体体态的模型;

有的小组要为路况图片中的车辆、摩托车、自行车和行人打上边框,并标注行进方向和是否有遮挡,这类图片多用来训练智能安防摄像头的识别能力;

有的小组需要分毫不差的描绘建筑物的边缘,将静止画面中鳞次栉比的大楼一一分割,标注成不同的色块,这类数据多用在自动驾驶中车辆对环境的认知;

有的正将雷达扫描出的障碍物 3D 线条一一还原成实物,长方体是建筑、绿色的是树木,这些内容会被用来训练雷达数据和真实世界的关联性。


标注作业有时并不简单,比如这种关联性标注


除图片外,这里还有负责视频标注的员工。 她们 需要从每段视频中抽出 10 帧,标注相近两帧中物体的方向和坐标的变化。这些数据也许会被用来训练机器对物体连贯性的感知,也许用来训练机器预判物体的位置变化。


与大部分制造业类似,这里的各个小组都有自己的管理者。管理者之上是项目经理,然后才是秦娇这样为数不多的高层管理者。员工「生产」的内容会经过质检人员的核验,全部合格后才会最终交付项目方。严格的流程和管理制度,保证了稳定的标注效率和质量。


「很多人认为大数据就是呼叫中心,我们发展的大数据和其他人不一样,整个贵州只有我们做数据精加工。」对于公司目前在做的业务,秦娇显得非常骄傲。







请到「今天看啥」查看全文