专栏名称: 天池大数据科研平台
天池,基于阿里云的开放数据处理服务ODPS,面向学术界开放海量数据和分布式计算资源,旨在打造“数据众智、众创”第一平台。在这里,人人都可以玩转大数据,共同探索数据众创新模式。
目录
相关文章推荐
CDA数据分析师  ·  【北京/远程】CDA数据分析脱产就业班06月 ... ·  3 天前  
数据派THU  ·  CVPR 2025 | 迈向可泛化的场景变化检测 ·  3 天前  
51好读  ›  专栏  ›  天池大数据科研平台

【干货】2010-2017最全KDD CUP赛题回顾及数据集下载

天池大数据科研平台  · 公众号  · 大数据  · 2017-03-03 22:16

正文

请到「今天看啥」查看全文


赛题介绍


Track1任务:Predicting scores that users gave to various items

(音乐评分预测)


根据用户在雅虎音乐上item的历史评分记录,来预测用户对其他item(包括歌曲、专辑等)的评分和实际评分之间的差异RMSE(最小均方误差)。同时提供的还有歌曲所属的专辑、歌手、曲风等信息


Track2任务:Separation of loved songs from other songs
(识别音乐是否被用户评分)


每个用户提供6首候选的歌曲,其中3首为用户已评分数据,另3首是该用户未评分,但是出自用户中整体评分较高的歌曲。歌曲的属性信息(专辑、歌手、曲风等)也同样提供。参赛者给出二分分类结果(0/1分类),并根据整体准确率计算最终排名


>>> 该赛题官方已下线,无数据集下载



2012


>>> 赛题介绍


Track1任务:Predict which users(or information sources) one user might follow in Tencent

(社交网络中的个性化推荐系统)

根据腾讯微博中的用户属性(User Profile)、SNS社交关系、在社交网络中的互动记录(retweet、comment、at)等,以及过去30天内的历史item推荐记录,来预测接下来最有可能被用户接受的推荐item列表


>>> 大赛介绍

https://www.kaggle.com/c/kddcup2012-track1#description

>>> 大赛数据集

https://www.kaggle.com/c/kddcup2012-track1/data

Track2任务:Predict the click-through rate of ads given the query and user information
(搜索广告系统的pTCR点击率预估)


提供用户在腾讯搜索的查询词(query)、展现的广告信息(包括广告标题、描述、url等),以及广告的相对位置(多条广告中的排名)和用户点击情况,以及广告主和用户的属性信息,来预测后续时间用户对广告的点击情况


>>> 大赛官网介绍
https://www.kaggle.com/c/kddcup2012-track2#description

>>>
大赛数据集
https://www.kaggle.com/c/kddcup2012-track2/data


2013


>>> 赛题介绍


Track1任务:Author-Paper Identification Challenge


微软学术搜索是一个开放的平台,它涵盖了各种学术领域超过5000万的出版物和1900多万作者,并保持着每周更新的速度。提供这项服务的主要挑战之一是作者名称的歧义。一方面,很多作者倾向于使用不同的笔名。另一方面,不同的作者可能有一个相似甚至相同的名字。







请到「今天看啥」查看全文