特写｜人工智能背后的人

机器之心 · 公众号 · AI · 2017-04-05 11:56

正文

数据庞大又开源，ImageNet 很快成为成为研究图像识别的首选。不论 Andrew Ng（吴恩达）还是 Jeff Dean，涉足这一领域研究者都使用过 ImageNet。但 ImageNet 有自己的弱点，标注框太大、标注方式少和不时出现的错误，使它难以被用来训练实际应用的算法模型。

人工智能公司们必须想尽办法，积累符合自身应用方向，标注得更细致、更准确的数据。在初创公司招聘工程师的需求中，「有收集标注数据的能力」有时也会被写进其中。某种程度上，高质量的标注数据决定了一家人工智能公司竞争力。

尽管互联网的确催生了浩如烟海的内容，但标注这件需要耐心和专注的「小事」，暂且还要靠人的帮忙。

二

在专业的数据标注公司出现前，众包平台往往是大部分公司的选择。

人们认为灵活性更高的众包方式能适应不稳定的数据需求，价格成本也更低。某知名数据众包平台据称拥有超过 5,000 名数据标注专员，单日可处理超过 200 万条数据，能「稳定提供数据标注服务」。

数据标注是所有数据众包平台的核心业务，除此之外还有数据清洗、数据采集等等

不过从单日单人数据比（400 条数据／人）可以推测出，其标注质量也许并非所说的那么可靠。由于参与众包标注的工作者数量很多，专业背景和工作能力参差不齐，「收集到的标注内容中存在噪声甚至错误，不能直接作为正确的标注使用」早已是不争的事实。如何解决众包平台的质量缺陷，已经成为近年来博硕士论文的议题之一。

通过数据交易平台购买已标注好的数据包也是一种选择。但问题似乎又绕回为什么人工智能公司要自己标注数据：不同的应用方向需要的数据内容不同，甚至标注方式也不同。

秦娇目前所在的这家公司，瞄准的就是这片市场——人工智能公司需要的数据既要根据需求定制，又要保证标注质量，同时数量还十分庞大。大部分人工智能公司自身和众包平台都无法同时满足这三种要求，因而诞生了专业的数据标注公司。

这家「数据加工」公司的一二层，全部是负责标注数据的员工。为满足不同订单需求，员工们被划分成不同小组：

有的小组负责勾画图片中人体的关节点，将复杂的瑜伽姿势抽象成点和线，可以用来训练识别人体体态的模型；

有的小组要为路况图片中的车辆、摩托车、自行车和行人打上边框，并标注行进方向和是否有遮挡，这类图片多用来训练智能安防摄像头的识别能力；

有的小组需要分毫不差的描绘建筑物的边缘，将静止画面中鳞次栉比的大楼一一分割，标注成不同的色块，这类数据多用在自动驾驶中车辆对环境的认知；

有的正将雷达扫描出的障碍物 3D 线条一一还原成实物，长方体是建筑、绿色的是树木，这些内容会被用来训练雷达数据和真实世界的关联性。

标注作业有时并不简单，比如这种关联性标注

除图片外，这里还有负责视频标注的员工。她们需要从每段视频中抽出 10 帧，标注相近两帧中物体的方向和坐标的变化。这些数据也许会被用来训练机器对物体连贯性的感知，也许用来训练机器预判物体的位置变化。

与大部分制造业类似，这里的各个小组都有自己的管理者。管理者之上是项目经理，然后才是秦娇这样为数不多的高层管理者。员工「生产」的内容会经过质检人员的核验，全部合格后才会最终交付项目方。严格的流程和管理制度，保证了稳定的标注效率和质量。

「很多人认为大数据就是呼叫中心，我们发展的大数据和其他人不一样，整个贵州只有我们做数据精加工。」对于公司目前在做的业务，秦娇显得非常骄傲。