正文
赛题介绍
Track1任务:Predicting scores that users gave to various items
(音乐评分预测)
根据用户在雅虎音乐上item的历史评分记录,来预测用户对其他item(包括歌曲、专辑等)的评分和实际评分之间的差异RMSE(最小均方误差)。同时提供的还有歌曲所属的专辑、歌手、曲风等信息
Track2任务:Separation of loved songs from other songs
(识别音乐是否被用户评分)
每个用户提供6首候选的歌曲,其中3首为用户已评分数据,另3首是该用户未评分,但是出自用户中整体评分较高的歌曲。歌曲的属性信息(专辑、歌手、曲风等)也同样提供。参赛者给出二分分类结果(0/1分类),并根据整体准确率计算最终排名
>>>
该赛题官方已下线,无数据集下载
>>>
赛题介绍
Track1任务:Predict which users(or information sources) one user might follow in Tencent
(社交网络中的个性化推荐系统)
根据腾讯微博中的用户属性(User Profile)、SNS社交关系、在社交网络中的互动记录(retweet、comment、at)等,以及过去30天内的历史item推荐记录,来预测接下来最有可能被用户接受的推荐item列表
>>>
大赛介绍
https://www.kaggle.com/c/kddcup2012-track1#description
>>>
大赛数据集
https://www.kaggle.com/c/kddcup2012-track1/data
Track2任务:Predict the click-through rate of ads given the query and user information
(搜索广告系统的pTCR点击率预估)
提供用户在腾讯搜索的查询词(query)、展现的广告信息(包括广告标题、描述、url等),以及广告的相对位置(多条广告中的排名)和用户点击情况,以及广告主和用户的属性信息,来预测后续时间用户对广告的点击情况
>>>
大赛官网介绍
https://www.kaggle.com/c/kddcup2012-track2#description
>>>
大赛数据集
https://www.kaggle.com/c/kddcup2012-track2/data
>>> 赛题介绍
Track1任务:Author-Paper Identification Challenge
微软学术搜索是一个开放的平台,它涵盖了各种学术领域超过5000万的出版物和1900多万作者,并保持着每周更新的速度。提供这项服务的主要挑战之一是作者名称的歧义。一方面,很多作者倾向于使用不同的笔名。另一方面,不同的作者可能有一个相似甚至相同的名字。