专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
CDA数据分析师  ·  【干货】如何让数据开口说话?这几款工具帮你快 ... ·  21 小时前  
数局  ·  青眼情报:2024年中国化妆品年鉴 ·  2 天前  
数据派THU  ·  CVPR 2025 | 迈向可泛化的场景变化检测 ·  3 天前  
艺恩数据  ·  2025人生四双鞋:京东趋势白皮书 ·  3 天前  
51好读  ›  专栏  ›  数据派THU

「不思考」反而更强?上海AI Lab重新定义视觉强化学习微调最优路径

数据派THU  · 公众号  · 大数据  · 2025-05-23 17:00

正文

请到「今天看啥」查看全文



这表明,分类任务中的思考过程可能没有数学问题中那么关键,因此模型逐渐倾向于采用最简单的思考方式来得出最终答案。此外,过度思考对某些任务的负面影响也得到了进一步验证。

图片

在此基础上,研究团队提出了一种新的方法——No-Thinking-RL,旨在抑制思考过程。在 No-Thinking-RL 中,模型被直接要求回答问题,奖励机制也做出了相应调整,只有当模型的输出与标签完全一致时,才会给予奖励。


令人惊讶的是,No-Thinking-RL 在许多任务中表现优于 CLS-RL,且训练时间显著减少。


研究团队推测,No-Thinking-RL 优于 CLS-RL 的原因在于,显式思考反而可能在可验证答案之前抑制了学习。因此,他们进一步提出了“思考后答”方法(Think-After-Answer),即将思考放在答案之后,以减轻这种负面影响。后续实验将进一步验证这一假设。


最后,研究团队在包括数学、空间推理和难题等多种任务上评估了 No-Thinking-RL,涵盖了 2B 和 7B 模型大小。


结果表明,对于 2B 模型,No-Thinking-RL 在所有任务上均优于带思考的 RFT,尤其是在数学任务中。而在 7B 模型上,三种方法在空间理解任务上的表现相似,但在数学问题上,带思考的RFT明显优于 No-Thinking-RL。


这些结果表明,小模型(如 2B)在微调过程中无法生成高质量的思考,且低质量的思考可能会降低性能;而对于简单的视觉任务,思考并非关键,No-Thinking-RL 在小模型上的表现优于带思考的 RFT,并且在 7B 模型上表现相似。


02 方法

为了优化模型,采用了 Group Relative Policy Optimization(GRPO)作为强化学习(RL)算法。与通过令牌级损失优化模型的 SFT 方法不同,像 GRPO 这样的 RL 方法利用来自奖励损失的策略梯度进行优化,促使模型在更广阔的解空间中进行推理探索。


在该方法中,使用了一组响应来估算相对优势,并通过正则化控制模型的偏离程度。这种方法通过采样响应并对其奖励进行标准化,计算相对优势,避免了 PPO 中的评论模型,计算效率更高。


图片


2.1 CLS-RL


CLS-RL 方法引入了指令提示和奖励函数。指令提示鼓励模型在给出答案前进行思考,并输出思考过程和最终答案。奖励函数由格式奖励和准确性奖励组成,格式奖励鼓励模型正确地展示思考过程,而准确性奖励则基于规则,检查模型输出是否与真实标签匹配。


2.2 No-Thinking-RL


与 CLS-RL 不同,No-Thinking-RL方法鼓励模型直接输出答案,避免思考过程。奖励函数仅关注准确性,模型的输出必须与真实标签精确匹配。这种方法显著减少了训练和推理时间,适用于不需要复杂推理的简单视觉任务。


03 分类实验部分

在这部分,作者展示了其分类实验的结果,重点评估了少样本学习能力和“自由午餐”现象,并分析了从基础任务到新任务的迁移性能及开集分类的表现。


3.1 实验设置


实验目标:本实验的主要目标是通过封闭表单的方式进行分类,即给定一部分类别标签,模型需从中选择正确的类别。实验中的问题格式为“这张照片里是什么物体?{指令提示}”,其中指令提示会根据不同的方法进行调整。


数据集:为了全面评估三种方法(SFT、CLS-RL 和 No-Thinking-RL),作者选取了 11 个公共的分类基准数据集,包括 ImageNet、Caltech101、OxfordPets、StanfordCars、Flowers102、Food101、FGVCAircraft、SUN397、DTD、EuroSAT 和 UCF101。


对于封闭表单的分类任务,从这些数据集中随机选择了 40% 的标签(基础到新任务使用 80% 标签),并包含真实标签。


实现细节:所有实验均在 8 张 A100 GPU 上进行,采用 Pytorch 框架实现。作者使用 Qwen2-VL-2B-Instruct 作为基础模型,并对所有参数进行微调。每张 GPU 的批量大小设为 1,并使用 2 步梯度累积。图像分辨率统一调整为 328×328。







请到「今天看啥」查看全文