专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

长推理≠高精度！自适应切换“秒答”与“深思”：省Token与提精度的双赢哲学

PaperWeekly · 公众号 · 科研 · 2025-05-27 13:41

正文

模型训练完成后，对训练集中所有样本进行短答案推理，生成预测答案并计算其困惑度值 PPL。Token 序列的困惑度定义为：

高斯分布建模：设二元变量 C 表示短答案是否正确（C=1 为正确，C=0 为错误），假设正确与错误答案的 PPL 分布均服从高斯分布：

概率密度函数分别为：

最后，通过训练数据估计其中参数（假设 n_1 和 n_0 分别为训练集中正确与错误回答的数量）：

推理过程对新输入 x，推理步骤如下：

1. 短回答推理：模型生成短回答，并计算相应的 PPL 为 PPL_new；

2. 概率计算：根据贝叶斯定理，将 PPL_new 代入概率密度函数，计算后验概率；

其中，先验概率分别为：

3. 决策规则：如果短回答的正确概率高于其可能错误的概率，直接输出短回答；否则触发模型的长推理。

实验结果

5.1 实现细节

我们采用 Qwen2-VL-7B-Instruct 作为多模态语言模型，并使用 Qwen2.5-7B-Instruct和Llama3.1-8B-Instruct 作为大语言模型，分别命名为 CAR 、CAR 和 CAR 。

所有模型均训练 3 个 epoch，使用批量大小为 32、学习率为 1e-6 的 AdamW 优化器。最大输入和输出序列长度分别设置为 4096 和 1024。训练在 8 块 NVIDIA A100 GPU 上进行。

为消除随机性影响，所有模型在测试期间均不使用采样方法，且统一采用 beam search=1 生成。此外，生成的最大 token 数设置为 1024，最大输入 token 数设置为 4096。

为了验证我们所提出方法的有效性，我们在三个多模态数据集上进行了实验：DocVQA、ChartQA 和 FUNSD。

与之前章节的先导实验不同，这里我们输入图像模态数据，并使用多模态大语言模型进行性能评估。由于这些数据集缺乏推理过程标注，我们复用了先导实验中获得的推理过程数据。

此外，我们还在文本数据集上对 CAR 方法进行了评估，选取了三个广泛使用的推理数据集：数学推理数据集 GSM8K 和 MathQA，以及常识推理数据集 StrategyQA。

5.2 多模态数据集性能比较

表 2 展示了多模态数据集上的性能表现。首先，CAR

推荐文章

研之成理 · 魔角石墨烯，Nature Materials！

2 天前

研之成理 · 广州大学Advanced Science: 基于脉宽调制异质R-C电路的多功能鲁棒储层计算系统

2 天前

研之成理 · 云南大学郭洪团队：无金属COF催化剂新突破，精准调控电子转移助力高效氧还原反应

2 天前

实验万事屋 · 这中山大学博士生的14.7分SCI文章，真是环环相扣！看完这代谢重编程与H3K9乳酰化的文章，我觉得是真不错……

昨天

科研大匠 · Science披露：近3年，垃圾论文激增，92%来自中国

2 天前

微设计 · 书房也可如此禅意

8 年前

笔记侠 · 行动派琦琦：从海外知识经济，看国内存在的几种误区

7 年前

飞地 · 当我们只看到一条线索，我们在看什么

7 年前

济宁趣生活 · 济宁小伙突发心脏病摔倒在地，发生了这一幕

7 年前

思想汇聚人生 · 郎永淳醉驾的惊人真相！不得不防！

7 年前