专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
相关文章推荐
雷科技  ·  华为折叠屏电脑评测:这点太绝了!!! ·  23 小时前  
新浪科技  ·  【独家 | ... ·  2 天前  
腾讯科技  ·  图灵奖得主Richard S. ... ·  2 天前  
51好读  ›  专栏  ›  DeepTech深科技

科学家提出“不思考”强化学习微调策略,训练时间节省超90%,为计算资源受限难题提供解决路径

DeepTech深科技  · 公众号  · 科技媒体  · 2025-05-31 21:03

主要观点总结

近期, 上海人工智能实验室的实习生李明和张凯鹏研究员的团队在多模态大模型的强化学习微调中探讨了显式思考过程的作用。研究发现,在某些简单视觉任务场景下,采用“不思考”的强化学习策略能够显著提高模型的微调效率和性能。这种新模式对计算资源相对有限的中小企业或学校实验室具有重要意义。该论文还探讨了基于规则的视觉强化微调中的显式思考研究,并发表在预印本网站arXiv上。研究内容包括将基础规则的强化学习应用于分类任务,以及调整微调策略让模型自发减少不必要的思考环节等。此外,该团队还研究了自适应思考的强化学习微调方法,为构建通用大模型提供新思路。

关键观点总结

关键观点1: 研究背景及意义

随着人工智能的发展,多模态大模型的应用越来越广泛。然而,这些模型在微调过程中往往需要进行大量的计算和优化,且在某些场景下性能表现不够理想。因此,探讨如何优化模型的微调过程,提高其性能和效率,具有重要的实践意义。

关键观点2: 研究内容及方法

该团队在多模态大模型的强化学习微调中探讨了显式思考过程的作用。通过采用“不思考”的强化学习策略,模型在简单视觉任务场景下的性能得到了显著提高。此外,研究团队还提出了基于规则的视觉强化微调中的显式思考研究,并探讨了自适应思考的强化学习微调方法。

关键观点3: 实验结果及影响

实验结果表明,“不思考”的强化学习策略能够显著提高模型的微调效率和性能,特别是在计算资源相对有限的场景下。此外,该研究还揭示了思考过程在不同任务中的差异化作用,建立了模型规模与思考策略有效性的关联规律。

关键观点4: 未来展望及价值

该研究为构建通用大模型提供了新的思路和方法。通过自适应地确定最优的训练策略和思考模式,可以使单一模型适应多样化任务需求。此外,该研究还为AI系统的实际应用提供了重要的参考,如自动驾驶、医疗影像分析等领域。


正文

请到「今天看啥」查看全文



图丨不同微调阶段的响应长度和准确奖励的变化(来源: arXiv


基于这一重要发现,研究团队创新性地调整了微调策略,让模型自发减少不必要的思考环节,直接输出答案而非采用“先思考再回答”的传统模式。


在少样本图像分类微调任务中,该框架的创新性主要体现在两个关键方面:


首先,研究团队创造性地将 DeepSeek-R1 的奖励机制引入分类任务,通过建立可验证的奖励体系,将多模态大模型的分类能力与传统强化学习相结合,使用分类类别名称作为奖励函数来替代传统的监督学习损失函数,这种设计使得模型能够直接优化整体回答策略而非局部 token 级别的优化。


其次,借鉴 DeepSeek-R1 的成功经验,采用结构化输出奖励机制,要求模型按照预设格式输出回答,在确保答案可验证性的同时鼓励模型进行多样化探索。


图丨CLS-RL 与不思考策略在步数上的准确度、奖励收敛速度及测试准确度的对比分析(来源: arXiv


令人惊喜的是,这种简化策略不仅在特定领域任务上超越了 CLS-RL,在泛化能力方面也展现出显著优势,同时大幅提升了训练收敛速度,并大幅缩短了训练时间(减少约 94%)。


结果显示,在 11 个数据集中,“不思考”策略在 10 个数据集中的表现优于 CLS-RL,最终平均准确率比 CLS-RL 高出 3.14%。这表明,不包含思考过程的 RFT 能够有效提升模型在分类任务上的性能,优于包含思考过程的 RFT。


与传统 SFT 方法相比,CLS-RL 有效避免了模型对训练数据的机械记忆和由此引发的灾难性遗忘问题,而是引导模型学习任务的本质特征(如图像分类中的背景、光照等关键要素)。


图丨CLS-RL 和无思考 RL 在不同数据集上的改进可视化,与零样本模型对比(来源: arXiv


这种学习方式使得模型在未经微调的数据集上也能保持良好性能,研究团队将这种现象称为“免费午餐”(free-lunch)泛化效应。张凯鹏表示: “这种学习本质特征的能力显著降低了对特定领域数据的依赖性,不仅有效防止了知识遗忘,还实现了优异的跨领域迁移性能。”


为进一步探究显式思考对 RFT 过程的影响机制,他们提出了“先回答后思考”(Think-After-Answer)的创新方法,通过让模型先输出答案再生成思考过程的方式来减轻思考环节对决策的潜在干扰。


研究人员在数学推理、空间认知和谜题解答等多种任务上对“不思考”策略进行了系统验证,并对比分析了 2B 和 7B 两种规模模型的性能表现。


结果显示,在 2B 模型中,“不思考”的微调方式在所有任务(包括数学推理)上都优于基于思考的 RFT,而“先回答后思考”的表现居中。李明对此解释说道:“在处理复杂数学问题时,2B 模型由于参数量有限,难以生成高质量的推理链条。因此,即使在需要复杂推理的任务中,强制引入思考环节也无法带来性能提升。”


然而当模型规模扩大到 7B 时,情况发生了显著变化:更大规模的模型已经具备生成有效思维链的能力,在数学等复杂推理任务中,显式思考的微调方式展现出明显优势。








请到「今天看啥」查看全文