正文
。
问题二:究竟是哪些人打了分?
根据用户信息我们得到在1765个用户中,平均每个人标记“看过”电影265部,标记“想看”电影53部,平均注册时间为 2014年9月4日。针对不同打分等级以及不同的特征,得到如下图表:
从以上三张图表我们可以得出,其中打5星和4星的用户,无论是“看过”,“想看”,还是“注册日期”上,达到1765个用户中的平均水平的人数比例都相当之低,我们可以得出,在5星和4星评分中,充斥着
“标记影片数量少,注册日期晚”
的用户。而反过来看打分低的用户,其中打2星的用户有39% 的人所标记的“看过”电影数量高于整体平均水平,五个档次中比例最高,其次是3星和1星。值得注意的是,在注册时间上,打1星的用户注册时间早于2014年9月4日的达到了42%,和5星的19%形成了强烈的反差,这类用户属于
“注册时间早,标记影片数量多”
,的确都较多集中在了低分档。为了更加直观表现用户分类,我们可以看下面这张数据透视图:
此时,我们大概知道给《李雷和韩梅梅》这部电影评分的1765个用户是怎么样子的了:打五星的用户,以豆瓣新用户为主,他们注册时间比较短,使用豆瓣次数比较少,标记“看过”和“想看”的电影也比较少。打一星和二星的用户以豆瓣老用户为主,豆瓣重度使用者,经常标记看过的电影,部分用户“看过”电影的数量惊人。
不过,由于在制片方控诉豆瓣后,有部分义愤填膺的用户涌入评论区,给电影打1分出气,所以1星用户情况可能和现实有点差距,个人认为2星到4星分布的用户特征比较符合实际的情况(即,如果没有这件“控诉”事,这部电影自然的打分情况)
问题三:究竟有没有非正常评分用户混在评论群体中?
豆瓣CEO在上一次评分风波中写了一篇文章,
豆瓣电影评分八问
,比较客观的介绍了豆瓣目前打分机制以及对水军的预防机制。
水军是有的,但豆瓣评分很难刷得动。
豆瓣这两年的原则是“所有能判断属于非正常评分的一概不算”,不分高低贵贱颜色。
这时候我就在想,我们所能看到的1765条评论中,是否如豆瓣所说,非正常评分评论一概不算,不会显示出来。为此,我们需要利用数据分析的方式对其做一个简单粗略的检测。
为了检测出是否有“非正常评分用户”的存在,我给他们下了大致的定义(我所理解的定义),比如只看过一两部电影,其中就包括《李雷和韩梅梅》,或者注册时间很短,豆瓣除了一部电影的内容,再无其他,没有“想看”标记,豆瓣活跃度极低,或者是好几个评论时间出现在差不多的时候而且都给了最高分或者最低分,还有一部分就是恶意打分,喷子这类。比如这些:
-
这是一个我认为比较有代表性的“非正常评分用户”,两个月注册无动态,看过和想看的内容有重复,评论矛盾。