专栏名称: 程序猿
本微信公众号:imkuqin,为程序员提供最新最全的编程学习资料的查询。目前已经开通PHP、C/C++函数库、.NET Framework类库、J2SE API查询功能。
目录
相关文章推荐
伯乐在线  ·  为什么 DeepSeek ... ·  20 小时前  
伯乐在线  ·  为什么 DeepSeek ... ·  20 小时前  
京东零售技术  ·  做「长期主义者」的技术人们 ·  5 天前  
极客之家  ·  一键将 Docker 命令转化为 ... ·  4 天前  
逸言  ·  怎么看待AI辅助编程 ·  2 天前  
51好读  ›  专栏  ›  程序猿

数据竞赛的中国时代来了吗?

程序猿  · 公众号  · 程序员  · 2016-12-19 16:32

正文

请到「今天看啥」查看全文


和大多数学术向竞赛不同,数据挖掘以及机器学习领域的竞赛,从诞生之日起就有明显的工业应用色彩,并和企业、政府高度相关。


ACM (美国计算机协会)下属数据挖掘及知识发现专委会(SIGKDD)从1995年开始固定举办的ACM-SIGKDD 国际大会,是知识发现及数据挖掘领域(Knowledge Discovery and Data Mining)的顶级技术大会。1997年,KDD推出了KDD-CUP,这是该领域迄今为止最重要的国际赛事。


KDD-CUP的应用色彩非常显著。1997年首届KDD-CUP,是由美国瘫痪退伍军人协会(Paralyzed Veterans of America)提供的350万捐赠者的捐赠记录,目标是希望通过数据分析,得出哪些人更有可能成为捐赠者,以帮助协会更准确的发送求助邮件。


1999年的数据集则更为经典,是来自于美国国防部高级规划署(DARPA)在MIT林肯实验室做的入侵检测评估项目数据,希望参赛者能够分别那些操作是外部入侵。这一年的获胜者,是著名的SAS公司。


KDD CUP的协办单位一般是微软、雅虎、Facebook、卡耐基梅隆大学、法国电信、西门子医疗,这些久负盛名的机构/公司。


而2010年成立的Kaggle则是一个数据竞赛平台,上面的比赛有获得面试类的,提供奖金类的,还有纯粹练习用的。泰坦尼克的数据就是一个练习比赛。实际上,不少公司都会在上面开放自己的数据,举办数据竞赛,发现人才。


对于政府、企业来说,通过开放特定数据举办比赛,一方面可以通过众包的方式,寻找更好的解决问题的方式,同时,能够提供数据本身,也是对企业数据能力的一种证明。


通常被国际顶级学术会议选中的合作伙伴,都是能提供极有前沿应用价值的大规模数据的机构,而且一旦被选中,他们开放的数据往往成为数据挖掘从业者研究和开发的范本训练数据。




另一方面,对于互联网企业来说,数据竞赛也可以发现、储备优秀的人才。


实际上,IBM Watson以及Google Deep Mind 的不少成员都活跃于Kaggle,Kaggle甚至推出了求职版面。至于KDD-CUP,获胜者更是各大公司的目标候选人,就中国选手来看,05年HKUST的沈抖就被微软总部挖走,11年中科院的项亮也加入了美国视频推荐网站hulu。








请到「今天看啥」查看全文