面向工业级推荐！“小”LLM也能做好推荐系统

蚂蚁技术AntTech · 公众号 · · 2024-03-11 18:29

正文

请到「今天看啥」查看全文

避免偏差

利用开放世界知识减少推荐系统对历史数据中偏见的依赖，从而实现更加公正和多样化的推荐。

在后续的实验部分，我们也通过直观的例子验证了LLM的世界知识和推理能力对提升推荐准确度、可解释性和缓解冷启动问题、流行度偏差问题的帮助。

当前，基于LLM的推荐系统主要分为两大类：

直接以LLM作为推荐系统（Ranker）

这类方法直接通过已经训练完成且参数固定的LLM，生成符合用户兴趣的排序/召回列表。然而，相较于依靠特定领域协同知识的传统推荐系统，这类方法仅依赖于LLM的零样本或小样本学习能力往往无法取得令人满意的效果。

以LLM作为知识提取器（Knowledge Enhancer）

这类方法通常遵循相似的级联架构，即首先通过合适的指令让LLM生成知识（总结用户偏好或者提取商品的事实知识），然后将生成的开放世界知识与传统推荐模型的域内知识、协同知识进行融合。一般来说，这种融合两种知识体系的方法能够带来更出色的推荐性能。

尽管如此，将基于LLM的推荐系统部署到实际的业务环境将面临巨大的存储和计算资源的开销，其带来的高推理成本以及高在线时延的压力是我们无法逾越的鸿沟。

举个例子，部署一个相对较大且推理能力较强的大模型如LLaMA-70B，需要8块A100的服务器；另外，如果我们调用ChatGPT-3.5来达到我们推理的需求，每1000token的输入需要$0.0015，每1000token的输出需要$0.002，这将带来巨大的调用开支，并有可能面临数据泄漏的风险。

因此，为了更高效地将LLM的开放世界知识和推理能力整合到推荐系统中，我们提出了基于蒸馏的大模型推荐方案（SLIM），希望蒸馏得到可以单卡部署且推理效果媲美GPT-3.5的小语言模型，使得推荐系统能够以资源高效的方式享受LLM的能力。