专栏名称: 数据观
数据观,全称“中国大数据产业观察网”(网址:www.cbdio.com),是一个面向全国的大数据专业新闻门户网站,专注大数据领域,旨在为读者提供最及时、最专业、最有价值的大数据相关资讯。
目录
相关文章推荐
大数据文摘  ·  LLM 翻车现场!ChatGPT 挑战 ... ·  3 天前  
数据派THU  ·  【斯坦福大学Xiang Lisa ... ·  4 天前  
INTERNATIONAL IDEAL 筑梦求职  ·  德勤认可的Data证书,留学生0门槛拿 ·  昨天  
INTERNATIONAL IDEAL 筑梦求职  ·  德勤认可的Data证书,留学生0门槛拿 ·  昨天  
人工智能与大数据技术  ·  互联网女皇340页AI报告猛料刷屏 ·  3 天前  
51好读  ›  专栏  ›  数据观

高质量数据集哪里来?机器学习公司的十大数据搜集策略

数据观  · 公众号  · 大数据  · 2017-08-27 14:15

正文

请到「今天看啥」查看全文



解决这个自相矛盾的问题的方法之一,是彻底缩小问题范围(如果需要的话,可以在之后再扩大)。正如Chris Dixon所说:“你所需要的数据量与你试图解决的问题的广度有关。”



Source: x.ai(来源于X.AI)


这样缩小问题范围的好处再一次体现在聊天机器人上。这一领域的创业公司可以在两种市场策略之间做出选择:他们可以建立水平助手——可以帮助解决大量问题和回应即时请求的机器人(比如Viv、Magic、Awesome、Maluuba和Jam)。或者,他们也可以创建垂直助手——能出色完成一项具体、明确的任务的机器人(例如x.ai, Clara, DigitalGenius, Kasisto, Meekan以及最近的GoButler/Angel.ai)。这两种方法都是有效的,不管如何选择,只要缩小了问题的范围,数据收集对创业公司来说都要容易得多。


适用对象: 经营垂直整合业务的公司


例子:

  1. 高度专业化的垂直聊天机器人(如 x.ai, Clara or GoButler)

  2. Deep Genomics(利用深度学习来分类/解释基因变异)

  3. Quantified Skin(使用客户自拍照来分析一个人的皮肤)


策略3:众包/外包


除了让员工(或实习生)来手动收集或标注数据,创业公司也可以通过众包来达到目的。像Amazon Mechanical Turk 或CrowdFlower 的平台提供了一种方法,可以利用数百万人的在线劳动力来清理混乱和不完整的数据。例如,VocalIQ(2015年被苹果收购)使用亚马逊土耳其机器人为其数字助手提供数千个用户提出的问题。员工也可以通过雇佣其他独立的承包商来外包(就像Clara 或Facebook M所做的那样)。使用这种方法的必要条件是可以清楚地解释这个任务,而且它不至于太长或者很无聊。



另一种策略是鼓励公众自愿提供数据。一家总部位于巴黎的人工智能创业公司Snips就是一个例子,该公司利用这种方法获得特定类型的数据(餐厅、酒店和航空公司的电子确认信)。和其他创业公司一样,Snips使用的是一种游戏化的系统,用户可以在排行榜上进行排名。


适用对象: 可以很容易地执行质量控制的情况


例子:

  1. DeepMind, Maluuba, AlchemyAPI,和其他很多人(见这里see here)

  2. VocalIQ(用土耳其机器人帮助系统学习人们如何说话)

  3. Snips (要求人们无偿为研究提供数据)


策略4:引导用户自发参与

有一种能够自成一类的众包策略,是通过恰当的方式引导用户自发地产生数据。这种方法中很重要的一步是设计能够为用户提供恰当激励,使其主动将数据结果反馈给系统的产品。

那些在自家许多产品中都使用了这种方法的公司里,有两个十分典型的例子:谷歌(搜索引擎、谷歌翻译、垃圾邮件过滤器等等)和Facebook(用户可在照片中给朋友加标签)。用户通常不知道他们的行为在为这些公司提供免费的标签数据。







请到「今天看啥」查看全文