专栏名称: 蚂蚁技术AntTech
分享蚂蚁集团的技术能力和技术文化。
目录
相关文章推荐
人工智能产业链union  ·  【AI加油站】第十五部:《大模型基础 ... ·  9 小时前  
人工智能产业链union  ·  【AI加油站】第十五部:《大模型基础 ... ·  9 小时前  
苹果黑科技  ·  iOS ... ·  9 小时前  
苹果黑科技  ·  iOS ... ·  9 小时前  
云上毕节  ·  不再设置!毕节教育局最新发布 ·  13 小时前  
云上毕节  ·  不再设置!毕节教育局最新发布 ·  13 小时前  
大淘宝技术  ·  探秘TaoAvatar:淘宝3D真人数字人技术解析 ·  昨天  
上海市第六人民医院  ·  【六院新闻】卒中预防管理新策略!上海六院携手 ... ·  2 天前  
上海市第六人民医院  ·  【六院新闻】卒中预防管理新策略!上海六院携手 ... ·  2 天前  
51好读  ›  专栏  ›  蚂蚁技术AntTech

WSDM 25唯一最佳论文:从谱视角揭开推荐系统流行度偏差放大之谜

蚂蚁技术AntTech  · 公众号  · 程序员 科技自媒体 互联网短视频  · 2025-05-08 10:05

主要观点总结

本文介绍了第18届国际互联网搜索与数据挖掘大会的最新研究成果,特别是关于推荐系统如何放大流行度偏差的问题。研究团队发现推荐模型的评分矩阵的最大奇异向量与物品的流行度向量高度相似,导致流行度信息被过度放大。为了解决这个问题,他们提出了一种基于正则项的方法——ReSN,通过约束谱范数来抑制流行度偏差。文章还介绍了推荐系统为什么会偏爱热门内容以及实验的亮点。

关键观点总结

关键观点1: 大会背景与最佳论文奖

第18届国际互联网搜索与数据挖掘大会在德国汉诺威召开,收录的论文数量以及最佳论文奖的获得情况。

关键观点2: 论文主题与核心内容

论文聚焦于推荐系统如何放大流行度偏差的问题,揭示了推荐模型评分矩阵与物品流行度向量的关系。

关键观点3: 流行度偏差的原因

研究团队发现推荐模型的流行度记忆效应和流行度放大效应是导致流行度偏差放大的主要原因。

关键观点4: 新方法:ReSN的介绍

研究团队提出了一种基于约束谱范数的纠偏方法——ReSN,用于抑制流行度偏差。

关键观点5: 实验验证与亮点

ReSN在七个真实数据集上的实验验证中表现优异,不仅在推荐整体准确性和纠偏性方面表现突出,而且在准确性-公平性权衡方面也有更好的表现。


正文

请到「今天看啥」查看全文



这要从数据的长尾分布开始说起,用户行为数据和物品的流行度通常呈现长尾分布,而推荐模型在这样长尾分布的数据上训练学习,不仅会继承这种倾斜的分布,甚至会放大,导致热门物品被过度推荐。


推荐系统为什么会放大流行度偏差呢?


核心发现


1. 流行度记忆效应:推荐模型的评分矩阵的最大奇异向量(第一主成分)与物品的流行度向量高度相似,最大奇异向量几乎完全捕获了物品的流行度特性。


实验发现,多个推荐模型的评分矩阵的最大奇异向量(第一主成分)与物品的流行度向量的余弦相似度超过 98%!



上述现象并不是偶然的,而有严格的理论支撑!对于有 n 个用户、m 个物品的推荐系统,设推荐模型给出的评分矩阵为 ,我们将评分矩阵 SVD 分解为 ,其中最大奇异值对应的右奇异向量 q_1 捕获到了物品流行度 r∈R^m 的信息。特别地,当物品的流行度满足以 α 为参数的幂律分布时(即第 g 最流行的物品的流行度 ),我们证明了:



其中, 为 Riemann zeta 函数,满足 α→∞ 时 ζ(α)→1。此时,当流行度偏差非常严重,也即 α 很大时,上面的不等式右侧可以近似为 1。这验证了我们的实验发现,即 评分矩阵最大奇异值对应的右奇异向量 q_1 记忆了物品流行度 r 的信息 。对于一般情况以及证明感兴趣的同学们可以看原文!


2. 流行度放大效应:维度缩减现象加剧了流行度偏差的「放大效应」。







请到「今天看啥」查看全文


推荐文章
云上毕节  ·  不再设置!毕节教育局最新发布
13 小时前
云上毕节  ·  不再设置!毕节教育局最新发布
13 小时前
奔波儿灞与灞波儿奔  ·  第13秒川普唱rap,听完竟然有点嗨!
8 年前
奔波儿灞与灞波儿奔  ·  这哥们一定是一个有故事的人…
8 年前