专栏名称: 机器学习算法与自然语言处理
一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
目录
相关文章推荐
CINNO  ·  iOS ... ·  昨天  
CINNO  ·  Soulus首获LG ... ·  昨天  
CINNO  ·  台积电进军Micro ... ·  2 天前  
爱否科技  ·  疑似 Find X9 ... ·  3 天前  
51好读  ›  专栏  ›  机器学习算法与自然语言处理

成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

机器学习算法与自然语言处理  · 公众号  ·  · 2025-06-01 00:00

正文

请到「今天看啥」查看全文


为了避免策略模型记住由 Simulation LLM 生成的文档,我们对文档进行了损失屏蔽(Loss Masking),仅对策略模型自己生成的 token 进行损失计算。

结构化训练模板

图片

ZeroSearch 无需初始监督微调(SFT),直接对预训练语言模型进行强化学习训练,通过采用结构化的训练模板,引导模型在每一轮交互中划分思维步骤:

  • 对已有信息分析,明确下一步行动

  • 提炼搜索 query

  • 总结推理过程,形成最终答案

这种结构化模板提升了模型推理路径的清晰度和可解释性,格式化的输出便于提取最终答案进行奖励计算。

搜索模拟微调

图片

直接通过 Prompt 指导 LLM 生成的模拟检索内容,往往与真实搜索引擎返回的检索内容风格差异较大,且质量不稳定。为了解决这些问题,我们采用了模拟微调策略,具体包含以下三步:

  • 轨迹采集:从策略模型与真实搜索引擎的交互中采集 Query-Document 对

  • 质量评估:利用 Qwen-Max 作为评审,对文档进行有用性判别

  • 监督微调:构建高质量训练集,进行轻量级微调 (2 万条数据,7B 模型训练时间仅需 30 分钟)

此外我们还在 Prompt 内引入原始问题的正确答案,从而扩充 Simulation LLM 的知识边界。

基于课程学习的文档生成策略

图片

经过微调的 Simulation LLM 可通过调整在 Prompt 中添加 Useful/Noisy 指令,灵活控制生成文档的质量。基于这一能力,我们进一步引入了课程学习策略,通过逐步降低文档质量,循序渐进地提升训练难度,从而更有效地激发模型的推理能力。

为实现训练难度的平滑过渡,我们设计了一个指数函数来控制 Noisy 文档的生成概率:

  • 训练初期:训练难度上升缓慢,模型能够稳步学习基本的输出格式以及任务逻辑。

  • 训练后期,训练难度快速上升,从而促使模型不断强化其推理能力与鲁棒性。

该由易到难的训练过程能够持续激发策略模型的推理能力,有效提升强化学习训练的稳定性与最终表现。

奖励函数设计

图片

在实验中,我们发现使用 Exact Match 作为奖励会诱导模型生成冗长内容以 “碰中” 答案,出现 Reward Hacking 问题,我们改用 F1 Score 作为奖励指标,更加关注输出的准确性与简洁性,有效抑制了冗余答案的产生。此外,我们发现模型在训练中即便不显式监督输出格式,也能生成结构规范的回答,因此没有引入格式奖励。

实验结果

主要性能表现







请到「今天看啥」查看全文