专栏名称: AI前线
我们专注大数据和机器学习,关注前沿技术和业界实践。每天发布高质量文章,技术案例等原创干货源源不断。同时有四千人的社群微课堂,每周一次业界大牛技术分享,也希望你能从这里分享前沿技术,交流深度思考。
目录
51好读  ›  专栏  ›  AI前线

为什么人们不再热议“大数据”

AI前线  · 公众号  · 大数据  · 2017-10-24 12:00

正文

请到「今天看啥」查看全文


Gartner 公司在 2015 年的“炒作周期”报告中将大数据拿掉,之后就没有再放回去过。Gartner 公司解释说,这并不是说其他公司放弃了大数据,而是因为这项技术已经很普遍了,没有必要继续给它打上“新兴技术”的标签。大数据让算法变得更强大,新闻源、推荐系统、自动股票交易、自动纠错系统、健康跟踪等,它们都依赖大数据和算法。只不过我们现今似乎很少再提及“大数据”这一词,而是直接叫它们“数据”。我们开始理所当然地认为数据集当中深藏不计其数的洞见,可以通过强大的软件来挖掘它们。

在 Cathy O'Neil 于 2016 年出版的“Weapons of Math Destruction”和 Frank Pasquale 于 2015 年出版的“The Black Box Society”中,“大数据”一词开始带有贬义的色彩。匆忙之中通过所谓的“数据驱动决策”来应用大数据技术只会犯下大错。

这里有一些很明显的事实:Target 公司向还没有对外宣告自己已怀孕的年轻女孩家庭发送婴儿用品券,Pinterest 给还未正式举行婚礼的单身女性送上祝福,Google Photos 因为训练数据不足导致将黑人误认为是黑猩猩。

还有其他一些很隐晦的情况,比如 O'Neil 在她的书中所提到的那些模型:法庭使用带有种族偏见的再犯模型(recidivism model)来审判罪犯;学校基于一些带有争议性的分数模型解雇有爱心的教师。

“大数据”的问题不在于数据本身,如果我们能够小心地应用大数据技术,就可以发现海量数据中隐藏的趋势。Julia Rose West 最近在 Slate 上写道,大数据的问题在于盲目的数据崇拜和滥用,这将把我们推向灾难的深渊。

大数据本身具有不易解释的特点。在收集了数以亿计的数据点之后——网页的点击或鼠标指针的位置、十字旋转门的旋转、世界各地每小时风速、推文——这些数据点开始变得模糊不清。这意味着我们从数据中看到的高层次的趋势有可能是非自然的洞见。更重要的是,我们所拥有的数据有可能只是我们想了解问题的代理,大数据本身不会解决问题,只会放大问题。







请到「今天看啥」查看全文