正文
模型训练完成后,对训练集中所有样本进行短答案推理,生成预测答案并计算其困惑度值 PPL。Token 序列的困惑度定义为:
高斯分布建模
:设二元变量 C 表示短答案是否正确(C=1 为正确,C=0 为错误),假设正确与错误答案的 PPL 分布均服从高斯分布:
概率密度函数分别为:
最后,通过训练数据估计其中参数(假设 n_1 和 n_0 分别为训练集中正确与错误回答的数量):
推理过程
对新输入 x,推理步骤如下:
1. 短回答推理:模型生成短回答,并计算相应的 PPL 为 PPL_new;
2. 概率计算:根据贝叶斯定理,将 PPL_new 代入概率密度函数,计算后验概率;
其中,先验概率分别为:
3. 决策规则:如果短回答的正确概率高于其可能错误的概率,直接输出短回答;否则触发模型的长推理。
实验结果
5.1 实现细节
我们采用 Qwen2-VL-7B-Instruct 作为多模态语言模型,并使用 Qwen2.5-7B-Instruct和Llama3.1-8B-Instruct 作为大语言模型,分别命名为 CAR
、CAR
和 CAR
。
所有模型均训练 3 个 epoch,使用批量大小为 32、学习率为 1e-6 的 AdamW 优化器。最大输入和输出序列长度分别设置为 4096 和 1024。训练在 8 块 NVIDIA A100 GPU 上进行。
为消除随机性影响,所有模型在测试期间均不使用采样方法,且统一采用 beam search=1 生成。此外,生成的最大 token 数设置为 1024,最大输入 token 数设置为 4096。
为了验证我们所提出方法的有效性,我们在三个多模态数据集上进行了实验:DocVQA、ChartQA 和 FUNSD。
与之前章节的先导实验不同,这里我们输入图像模态数据,并使用多模态大语言模型进行性能评估。由于这些数据集缺乏推理过程标注,我们复用了先导实验中获得的推理过程数据。
此外,我们还在文本数据集上对 CAR 方法进行了评估,选取了三个广泛使用的推理数据集:数学推理数据集 GSM8K 和 MathQA,以及常识推理数据集 StrategyQA。
5.2 多模态数据集性能比较
表 2 展示了多模态数据集上的性能表现。首先,CAR