正文
-
"昙花一现"模式:用户仅为极少数仓库点赞后便销声匿迹
-
"整齐划一"模式:n 个账户如同提前约好一般,在极短时间 ∆t 内集体为 m 个特定仓库点赞
这些行为模式往往与虚假 Star 交易密切相关。对于那些经营 Star 买卖的商家来说,要完全规避这些特征几乎是不可能的:他们要么使用新注册的临时账户,要么不得不在短时间内集中完成客户订单(如表 1 的交付时间承诺所示)。
然而必须承认的是,在判定 Star 的真伪时很难画出一条泾渭分明的界限。比如,设想这样一个场景:某个 GitHub 教程要求学习者给仓库点 Star 作为练习的一部分,这种情况该如何界定?
因此,研究团队决定不纠结于定义绝对的真伪标准,而是将重点放在识别具有明显异常行为特征的仓库和用户身上。
为了降低误判率(无论是将正常用户误判为作弊者,还是虚假账户为掩人耳目给正常仓库点赞),StarScout 设计了一套精细的后处理机制,用于进一步甄别可疑的 Star 行为。系统整体架构如图 2 所示。
实验分析
使用包含 15,835 个仓库和 27.8 万个具有虚假 Star 活动的帐户的数据集进行实验分析后,研究团队对 GitHub 中的欺诈性点赞活动进行了测量研究,以四个研究问题来分析:
-
RQ1:
GitHub 中虚假 Star 的普遍程度如何?
-
RQ2:
具有虚假 Star 活动的 GitHub 仓库的特征是什么?
-
RQ3:
参与虚假 Star 活动的 GitHub 帐户的特征是什么?
-
RQ4:
虚假 Star 在多大程度上有效地推广了目标 GitHub 仓库?
RQ1:GitHub 中虚假 Star 的普遍程度如何?
为了摸清 GitHub 上虚假 Star 的真实情况,研究团队首先要搞清楚它们到底有多普遍。研究团队把那些被标记为“刷星”的仓库和用户,跟 GitHub 上的两组“正常人”进行了对比:
-
“正常仓库”:每月获得 50 个以上 Star 的仓库。
-
“正常用户”:每月至少有一次 GitHub 活动的用户。
-
对比结果,研究团队都惊呆了!
如图 6 的数据显示,从 2022 年开始,“刷星”活动就开始抬头,到了 2024 年简直是“井喷式”爆发!(注意,图 6 的 y 轴是对数坐标,这意味着增长速度比你看到的还要快得多!)
-
2022 年之前,每个月最多只有 10 个仓库参与“刷星”活动。
-
2022 年和 2023 年,这个数字增加到了十几个。
-
-
2024 年 7 月,“刷星”活动达到顶峰,有 3216 个仓库和 30779 个用户参与其中!
发现 1:GitHub “刷星”活动从 2022 年开始抬头,2024 年彻底爆发!
研究团队的对比还发现,只需要一小撮“刷星”用户,就能在 GitHub 的人气竞赛中掀起巨大的波澜。比如,在 2024 年 7 月的峰值,只有 30779 个“刷星”用户,仅占当月活跃用户的 1.88%,但他们“刷”出来的 3216 个仓库,却占当月所有获得 50 个以上 Star 的仓库的 15.84%!