专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
相关文章推荐
自然系列  ·  直播预告 ... ·  3 天前  
自然系列  ·  新一代AI模型D-I-TASSER实现超越A ... ·  2 天前  
环球科学科研圈  ·  大豆期货预测精度超过99%!中南大学刘辉团队 ... ·  2 天前  
研之成理  ·  王中阳-Ramani-Sankarasubr ... ·  3 天前  
51好读  ›  专栏  ›  PaperWeekly

既ZeroSearch之后,通义最新力作MaskSearch提出推理搜索预训练新框架

PaperWeekly  · 公众号  · 科研  · 2025-06-07 23:55

正文

请到「今天看啥」查看全文



1. 本体知识 :文本中涉及的分类体系或知识体系中的关键概念;


2. 特定术语 :针对特定领域或主题的专业术语;


3. 数值 :文本中涉及的具体数值,如统计数据、测量值等。


这不仅增加了任务的难度,还促使模型在检索和推理过程中更加精细化地处理信息,从而提升其在多领域任务中的适应能力和泛化能力。

2.2 训练方法

监督微调


为了生成用于监督微调(Supervised Finetuning, SFT)的思维链(CoT)数据,作者提出一种结合(1)Agent合成与(2)蒸馏(Distillation)的数据生成方法,具体包括:


  • Agent 合成 :首先,搭建多智能体系统,纳入规划、搜索改写、观察分析等角色,协同进行思维链的生成任务。最终由一个 LLM 负责答案判断,仅保留正确答案的思维链。

  • 蒸馏 :为了快速扩展数据集并保持高质量,使用已有数据训练后的教师模型,直接生成推理轨迹,并逐步迭代教师模型,从而逐步提升数据质量。

强化学习


强化学习部分,作者采用了动态采样策略优化(DAPO)算法,结合规则驱动的格式奖励和模型驱动的回答奖励,构建了混合奖励系统。格式奖励检查模型输出是否符合指定格式,回答奖励则评估生成答案与标准答案的一致性。


作者探索了多种回答奖励函数,最终选择基于模型的奖励函数,使用 Qwen2.5-72B-Instruct 模型作为评判,为生成答案和标准答案的一致性进行打分。


课程学习


为了帮助从易到难依次学习,作者提出依据掩码数量对训练样本进行难度分级,让模型首先通过简单样本学习基础推理技能,然后逐步提升能力以应对更具挑战性的场景。



实验

3.1 主要结果

作者通过基于不同大小的 Qwen 和 LLaMA 模型的实验证明,两阶段 MaskSearch 训练框架显著提升了大模型的搜索和推理能力。







请到「今天看啥」查看全文