专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
相关文章推荐
研之成理  ·  魔角石墨烯,Nature Materials! ·  2 天前  
研之成理  ·  广州大学Advanced ... ·  2 天前  
实验万事屋  ·  这中山大学博士生的14.7分SCI文章,真是 ... ·  昨天  
科研大匠  ·  Science披露:近3年,垃圾论文激增,9 ... ·  2 天前  
51好读  ›  专栏  ›  PaperWeekly

长推理≠高精度!自适应切换“秒答”与“深思”:省Token与提精度的双赢哲学

PaperWeekly  · 公众号  · 科研  · 2025-05-27 13:41

正文

请到「今天看啥」查看全文


模型训练完成后,对训练集中所有样本进行短答案推理,生成预测答案并计算其困惑度值 PPL。Token 序列的困惑度定义为:

高斯分布建模 :设二元变量 C 表示短答案是否正确(C=1 为正确,C=0 为错误),假设正确与错误答案的 PPL 分布均服从高斯分布:

概率密度函数分别为:

最后,通过训练数据估计其中参数(假设 n_1 和 n_0 分别为训练集中正确与错误回答的数量):

推理过程 对新输入 x,推理步骤如下:


1. 短回答推理:模型生成短回答,并计算相应的 PPL 为 PPL_new;


2. 概率计算:根据贝叶斯定理,将 PPL_new 代入概率密度函数,计算后验概率;

其中,先验概率分别为:

3. 决策规则:如果短回答的正确概率高于其可能错误的概率,直接输出短回答;否则触发模型的长推理。



实验结果

5.1 实现细节

我们采用 Qwen2-VL-7B-Instruct 作为多模态语言模型,并使用 Qwen2.5-7B-Instruct和Llama3.1-8B-Instruct 作为大语言模型,分别命名为 CAR 、CAR 和 CAR


所有模型均训练 3 个 epoch,使用批量大小为 32、学习率为 1e-6 的 AdamW 优化器。最大输入和输出序列长度分别设置为 4096 和 1024。训练在 8 块 NVIDIA A100 GPU 上进行。


为消除随机性影响,所有模型在测试期间均不使用采样方法,且统一采用 beam search=1 生成。此外,生成的最大 token 数设置为 1024,最大输入 token 数设置为 4096。


为了验证我们所提出方法的有效性,我们在三个多模态数据集上进行了实验:DocVQA、ChartQA 和 FUNSD。


与之前章节的先导实验不同,这里我们输入图像模态数据,并使用多模态大语言模型进行性能评估。由于这些数据集缺乏推理过程标注,我们复用了先导实验中获得的推理过程数据。


此外,我们还在文本数据集上对 CAR 方法进行了评估,选取了三个广泛使用的推理数据集:数学推理数据集 GSM8K 和 MathQA,以及常识推理数据集 StrategyQA。

5.2 多模态数据集性能比较

表 2 展示了多模态数据集上的性能表现。首先,CAR







请到「今天看啥」查看全文