专栏名称: 机器学习算法与自然语言处理
一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
目录
相关文章推荐
中国能源报  ·  刘卫华,非法收受巨额财务 ·  5 小时前  
中国能源报  ·  高温来袭!四川将首次执行灵活尖峰电价 ·  8 小时前  
中国能源报  ·  三峡大学宣布:扩招! ·  8 小时前  
中国能源报  ·  32853亿美元! ·  3 天前  
51好读  ›  专栏  ›  机器学习算法与自然语言处理

Qwen团队发布长上下文Reasoning模型QwenLong-L1,超越o3-mini

机器学习算法与自然语言处理  · 公众号  ·  · 2025-05-28 01:41

正文

请到「今天看啥」查看全文


传统方法靠“死记硬背”(监督学习),但长文本需要模型具备“主动思考”能力。比如:

  • 从100页财报中找到关键数据
  • 跨多篇论文推导结论

这就像让一个只会做选择题的学生,突然面对开放式研究课题——必须用强化学习(RL)激发“主动推理”能力!

QwenLong-L1的三个方法

一 分阶段“升级”的强化学习

模型不是一口气学完长文本,而是像打游戏一样分阶段“练级”:

  • 第1关:先学2万字以内的文本(热身)
  • 第2关:挑战6万字的“困难模式”

每个阶段只专注当前难度,避免“贪多嚼不烂”。 图片

二 动态调整难度

系统会主动筛选“历史难题”,比如之前得分低的题目,让模型反复练习薄弱环节。这种“错题本”机制,让学习效率翻倍!

三 混合奖励机制:既要精确,又要灵活

  • 规则奖励 :答案必须严格匹配标准(比如数字不能错)
  • 裁判奖励 :用另一个小模型判断答案语义是否合理(比如“10%”和“0.1”算对)

最终奖励取两者最大值,兼顾精准与灵活!

实验:超越o3-mini、比肩Claude







请到「今天看啥」查看全文