专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

SIGIR 2025 | Debug你的AI搜索！NExT-Search双模式反馈让模型学会自我纠错

PaperWeekly · 公众号 · 科研 · 2025-06-05 13:32

正文

1. 查询检索与排序：用户输入关键词后，系统从索引库中检索文档，基于关键词匹配、语义匹配、链接权重（如 PageRank）等特征进行排序。

2. 结果展示（SERP）：系统返回一个网页链接列表（通常是前 10 个），附带标题与摘要，供用户点击查看。

3. 用户反馈机制：用户的点击行为、停留时间、跳出率等都作为隐式反馈被记录。这些隐式反馈数据可以很好的直接反应用户的查询和文档之间的相关性以及文档本身的质量，能够直接用于优化排序模型，实现效果闭环。

4. 持续优化（数据飞轮）：反馈越多，训练数据越丰富，排序模型越精准，用户体验越好，从而进一步吸引更多用户与数据，形成正向循环。

过去二十多年，Google、Bing、百度等早期的搜索引擎巨头能长期保持巨大的领先，靠的就是“细粒度用户反馈→模型更新”的闭环：每天海量的点击、停留时长等行为日志被实时写入系统，经在线／离线增量训练和 A/B 测试迅速反映到检索与排序模型。

模型效果提升带来更佳体验，吸引更多用户和数据，进一步加速优化，形成正向的反馈循环，使传统 Web Search 成为迄今最成熟、最稳健的大规模 AI 应用之一。

1.2 Generative AI Search：端到端便利带来的反馈断裂

近年来，以 ChatGPT、Bing Copilot、Perplexity 为代表的生成式 AI 搜索迅速崛起，其工作流程发生了显著变化：

1. 查询分解：系统会将用户的复杂查询自动拆分为多个子问题（Sub-queries），提高理解与处理能力。

2. 段落级文档检索：系统根据每个子问题，检索更细粒度的信息单元（如段落），而非整篇文档。

3. 答案生成：基于 LLM（大语言模型），将检索到的证据汇总、重构为一段自然语言答案。

4. 结果呈现与简单反馈：用户直接收到一段合成答案，且用户通常只能对最终答案给出粗粒度反馈（如👍/👎或评论），而无法精准指出具体问题出在哪一步。

Generative AI Search 将多个搜索步骤（查询拆解、文档检索、答案生成）打包成一个端到端过程。对于复杂问题，用户无需再亲自动手反复“拆分-检索-核查-汇总”，对话即可获得复杂问题的完整答案，效率大幅提升。

但这份便利以牺牲细粒度反馈为代价：用户只能对最终答案进行点赞、评论等粗粒度反馈，系统无法追溯是哪一环节（如子查询不合理、文档召回错误、生成幻觉）导致失败。结果是传统依赖大规模用户行为日志的“反馈飞轮”失灵，搜索质量的自我迭代难以为继。

1.3 两种范式总结对比

从上表的对比分析中可以看到，生成式 AI 搜索通过端到端生成答案，大幅提升了用户获取复杂信息的效率，几乎无需点击即可完成整个查询过程，带来了前所未有的便利。

然而，这种便利的背后也伴随着关键机制的缺失——系统接管了原本由用户完成的查询拆解、信息筛选与整合过程，用户不再参与中间决策，用户行为被压缩为对最终答案的简单评价，系统无法像传统搜索那样获取细粒度的文档级反馈，导致模型难以定位问题所在，优化链条中断。

因此，若想让生成式搜索形成与传统搜索类似的正向反馈循环，就需要重新引入对中间过程的可感知、可利用的反馈机制，同时尽可能的减少用户的交互代价，这也正是我们提出 NExT-Search 框架所要解决的核心问题。

NExT-Search：下一代智能搜索的反馈机制探索