专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
软件定义世界(SDX)  ·  DeepSeek使用技巧与提示词应用 ·  3 天前  
大数据文摘  ·  大厂搞AI,谁赚到钱了? ·  4 天前  
51好读  ›  专栏  ›  大数据文摘

阿里发布 QwenLong-L1 超长文本杀器!已开源、支持 120k 长上下文、具备“翻书回溯”能...

大数据文摘  · 公众号  · 大数据  · 2025-06-01 12:33

正文

请到「今天看啥」查看全文



QwenLong-L1的解法:一套“三步走”的战略

QwenLong-L1 并不是一个新模型,而是一套训练已有大模型的新方法——它采用了三阶段训练流程:

第一步有监督学习(SFT)阶段。 模型在这一阶段接受的是大量经过标注的长文本推理样本,比如“从一份 20 页的财报中,找出企业未来三年关键成本控制策略”。这一步帮助模型建立对“长内容”的基础适应力:哪里该找信息?信息之间有什么逻辑链?如何根据内容生成回答?这一阶段不是靠猜答案,而是靠“看例子学”。

第二步是“分级强化” ——随着文档长度逐步增加,模型被分阶段推进强化学习过程。训练初期,输入文档较短;模型表现稳定后,再逐步拉长输入。这就像教孩子写作业,从看一页材料回答问题,慢慢过渡到处理整本教材。“突然上难度”的方法常常训练崩盘,而这套“课程表”式的推进方式,使得模型策略进化更可控、更稳定。

第三步是“难题反复训练” ——用最难的样本反复优化模型的策略空间。这一步被称为“困难感知的回顾采样”(Difficulty-Aware Retrospective Sampling):它刻意选择那些模型曾经做错、但又具有代表性的难题进行强化学习,从而鼓励模型尝试不同思路路径,并形成反思、回溯、验证的能力。

更妙的是,它还引入了一套 混合奖励机制 。 不同于传统解数学题那样“答案对就给满分”的死板规则,QwenLong-L1同时引入了“ 规则裁判







请到「今天看啥」查看全文