正文
众包是低成本的数据获取渠道
机器学习严重依赖数据,怎样获得量大、质高的数据,以及对数据进行必要的清洗、标注,这些往往都成为训练机器算法的瓶颈。而
众包模式作为互联网手段,是一种低成本的数据获取与处理方式。
根据Everest Group Pricing Assurance提供的数据,众包模式与传统外包模式相比,成本可降低高达60%。例如,Google利用谷歌利用众包方式打造测绘地图,获得了原本成本高昂的世界街景图片数据。这个办法,本田、高通等也相继效仿,开发基于外包的地图测绘技术。
传统外包与众包模式的成本比较
在某些巧妙的模式设计下,甚至可以免费获得你想要的数据。最为典型的是由CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)的发明者Luis von Ahn创办的多邻国Duolingo语言学习平台。
一直以来,多邻国的语言学习平台都是免费的,甚至没有广告。某些评论称
“
If you are not pay for the product, you are the product”
(如果你没有为所使用的产品付费,那你本身就是这个产品的一部分)。
这句话听着很在理。你在使用多邻国的免费语言学习课程时,正在为它的客户免费提供文档翻译服务,这也意味着你即是多邻国的用户,更是它的免费劳工。就像BUZZFEED、CNN都是多邻国的客户一样。
多邻国商业模式示意