成本暴降88%！通义实验室、北大发布ZeroSearch，无需搜索即可激活LLM检索能力

机器学习算法与自然语言处理 · 公众号 · · 2025-06-01 00:00

正文

请到「今天看啥」查看全文

为了避免策略模型记住由 Simulation LLM 生成的文档，我们对文档进行了损失屏蔽（Loss Masking），仅对策略模型自己生成的 token 进行损失计算。

结构化训练模板

ZeroSearch 无需初始监督微调（SFT），直接对预训练语言模型进行强化学习训练，通过采用结构化的训练模板，引导模型在每一轮交互中划分思维步骤：

对已有信息分析，明确下一步行动
提炼搜索 query
总结推理过程，形成最终答案

这种结构化模板提升了模型推理路径的清晰度和可解释性，格式化的输出便于提取最终答案进行奖励计算。

搜索模拟微调

直接通过 Prompt 指导 LLM 生成的模拟检索内容，往往与真实搜索引擎返回的检索内容风格差异较大，且质量不稳定。为了解决这些问题，我们采用了模拟微调策略，具体包含以下三步：

轨迹采集：从策略模型与真实搜索引擎的交互中采集 Query-Document 对
质量评估：利用 Qwen-Max 作为评审，对文档进行有用性判别
监督微调：构建高质量训练集，进行轻量级微调 (2 万条数据，7B 模型训练时间仅需 30 分钟)

此外我们还在 Prompt 内引入原始问题的正确答案，从而扩充 Simulation LLM 的知识边界。

基于课程学习的文档生成策略

经过微调的 Simulation LLM 可通过调整在 Prompt 中添加 Useful/Noisy 指令，灵活控制生成文档的质量。基于这一能力，我们进一步引入了课程学习策略，通过逐步降低文档质量，循序渐进地提升训练难度，从而更有效地激发模型的推理能力。

为实现训练难度的平滑过渡，我们设计了一个指数函数来控制 Noisy 文档的生成概率：

训练初期：训练难度上升缓慢，模型能够稳步学习基本的输出格式以及任务逻辑。
训练后期，训练难度快速上升，从而促使模型不断强化其推理能力与鲁棒性。

该由易到难的训练过程能够持续激发策略模型的推理能力，有效提升强化学习训练的稳定性与最终表现。

奖励函数设计

在实验中，我们发现使用 Exact Match 作为奖励会诱导模型生成冗长内容以 “碰中” 答案，出现 Reward Hacking 问题，我们改用 F1 Score 作为奖励指标，更加关注输出的准确性与简洁性，有效抑制了冗余答案的产生。此外，我们发现模型在训练中即便不显式监督输出格式，也能生成结构规范的回答，因此没有引入格式奖励。

实验结果

主要性能表现