「不思考」反而更强？上海AI Lab重新定义视觉强化学习微调最优路径

数据派THU · 公众号 · 大数据 · 2025-05-23 17:00

正文

请到「今天看啥」查看全文

这表明，分类任务中的思考过程可能没有数学问题中那么关键，因此模型逐渐倾向于采用最简单的思考方式来得出最终答案。此外，过度思考对某些任务的负面影响也得到了进一步验证。

在此基础上，研究团队提出了一种新的方法——No-Thinking-RL，旨在抑制思考过程。在 No-Thinking-RL 中，模型被直接要求回答问题，奖励机制也做出了相应调整，只有当模型的输出与标签完全一致时，才会给予奖励。

令人惊讶的是，No-Thinking-RL 在许多任务中表现优于 CLS-RL，且训练时间显著减少。

研究团队推测，No-Thinking-RL 优于 CLS-RL 的原因在于，显式思考反而可能在可验证答案之前抑制了学习。因此，他们进一步提出了“思考后答”方法（Think-After-Answer），即将思考放在答案之后，以减轻这种负面影响。后续实验将进一步验证这一假设。

最后，研究团队在包括数学、空间推理和难题等多种任务上评估了 No-Thinking-RL，涵盖了 2B 和 7B 模型大小。

结果表明，对于 2B 模型，No-Thinking-RL 在所有任务上均优于带思考的 RFT，尤其是在数学任务中。而在 7B 模型上，三种方法在空间理解任务上的表现相似，但在数学问题上，带思考的RFT明显优于 No-Thinking-RL。

这些结果表明，小模型（如 2B）在微调过程中无法生成高质量的思考，且低质量的思考可能会降低性能；而对于简单的视觉任务，思考并非关键，No-Thinking-RL 在小模型上的表现优于带思考的 RFT，并且在 7B 模型上表现相似。

02 方法

为了优化模型，采用了 Group Relative Policy Optimization（GRPO）作为强化学习（RL）算法。与通过令牌级损失优化模型的 SFT 方法不同，像 GRPO 这样的 RL 方法利用来自奖励损失的策略梯度进行优化，促使模型在更广阔的解空间中进行推理探索。

在该方法中，使用了一组响应来估算相对优势，并通过正则化控制模型的偏离程度。这种方法通过采样响应并对其奖励进行标准化，计算相对优势，避免了 PPO 中的评论模型，计算效率更高。

2.1 CLS-RL

CLS-RL 方法引入了指令提示和奖励函数。指令提示鼓励模型在给出答案前进行思考，并输出思考过程和最终答案。奖励函数由格式奖励和准确性奖励组成，格式奖励鼓励模型正确地展示思考过程，而准确性奖励则基于规则，检查模型输出是否与真实标签匹配。

2.2 No-Thinking-RL

与 CLS-RL 不同，No-Thinking-RL方法鼓励模型直接输出答案，避免思考过程。奖励函数仅关注准确性，模型的输出必须与真实标签精确匹配。这种方法显著减少了训练和推理时间，适用于不需要复杂推理的简单视觉任务。

03 分类实验部分

在这部分，作者展示了其分类实验的结果，重点评估了少样本学习能力和“自由午餐”现象，并分析了从基础任务到新任务的迁移性能及开集分类的表现。

3.1 实验设置

实验目标：本实验的主要目标是通过封闭表单的方式进行分类，即给定一部分类别标签，模型需从中选择正确的类别。实验中的问题格式为“这张照片里是什么物体？{指令提示}”，其中指令提示会根据不同的方法进行调整。

数据集：为了全面评估三种方法（SFT、CLS-RL 和 No-Thinking-RL），作者选取了 11 个公共的分类基准数据集，包括 ImageNet、Caltech101、OxfordPets、StanfordCars、Flowers102、Food101、FGVCAircraft、SUN397、DTD、EuroSAT 和 UCF101。

对于封闭表单的分类任务，从这些数据集中随机选择了 40% 的标签（基础到新任务使用 80% 标签），并包含真实标签。

实现细节：所有实验均在 8 张 A100 GPU 上进行，采用 Pytorch 框架实现。作者使用 Qwen2-VL-2B-Instruct 作为基础模型，并对所有参数进行微调。每张 GPU 的批量大小设为 1，并使用 2 步梯度累积。图像分辨率统一调整为 328×328。