性能准确率突破96%！上海算法创新研究院发布xVerify：面向推理模型的答案评估器

数据派THU · 公众号 · 大数据 · 2025-05-15 17:00

正文

请到「今天看啥」查看全文

在数据标注过程中，该团队采用 GPT-4o 和人工标注团队对对训练集和测试集进行多轮标注和复核，以确保标注的准确性和一致性。具体而言，他们首先使用 GPT-4o 基于不同的提示词进行两轮自动标注，针对标注结果中存在分歧或涉及复杂数学表达的样本进行人工复核。

针对测试集和泛化集，他们采取更严格的质量控制措施，所有数据均由人工再次标注，以确保其作为高质量评估基准，能够准确衡量模型的有效性和泛化能力。

最终，基于精心设计的数据收集、回答生成、数据划分以及标注策略，该团队最终构建了 Verify Answer for Reasoning (VAR) 数据集，一个多样化、高质量的长推理链数据集。

VAR 数据集包含训练集（43204）、测试集（6122）和泛化集（6468），训练集和测试集用于训练和评估 xVerify 模型，而泛化集作为测试集的补充，用于检验 xVerify 在更多样化的评估场景中的泛化能力。

📌 第二阶段：模型训练

该研究基于 LLama-Factory 框架，在 VAR 数据集的训练集上针对多个模型进行微调，所使用的基座模型涵盖了不同的架构（如 Qwen2.5、Gemma2、Phi-4 系列）和参数规模（0.5B 至 32B）。

最终所有 xVerify 模型均展现出超过较高的高准确率，尤其在处理长推理链、数学表达式等价性判断等核心任务中表现显著优于传统方法。

三、实验对比

该研究通过四类题型（多选题、数学题、简答题、分类题）与主流评估方法（评估框架和 Judge Model）进行对比，结果显示，xVerify 在不同题型上的评估准确率均有显著优势，且具有良好的泛化性能。

即使是最小的 xVerify 模型（ xVerify-0.5B-I），其表现仍然能全面超越除 GPT-4o 外的所有方法，而 xVerify-3B-Ib 则全面超越其他方法。

测试集评估结果

泛化集评估结果

此外，论文附录中还提供了全部 14 个 xVerify 模型的完整评估结果，并针对对比了所有 judge model 和 xVerify 模型的评估效率，实验结果显示 xVerify 模型的推理效率显著优于其他模型。

四、xVerify 评估示例

● 数学题


{"index": 1,"question": "$已知函数f(x)=|x-a|+2|x+1|(a>0)。$\n$若a=3，求不等式 f(x)>5 的解集；$","correct_answer": "$(-\\infty ,-\\frac{4}{3})\\cup (0,+\\infty )$","llm_output": "\n首先，我们考虑函数 \\( f(x) = |x - 3| + 2|x + 1| \\) 在 \\( a = 3 \\) 时的形式。\n\n接下来，我们需要确定函数 \\( f(x) \\) 的分段形式。由于 \\( |x - 3| \\) 和 \\( |x + 1| \\) 都是绝对值函数，我们需要找到 \\( x \\) 的值，使得这些绝对值函数内部的表达式为零，即 \\( x = 3 \\) 和 \\( x = -1 \\)。\n\n因此，函数 \\( f(x) \\) 可以分为三个部分：\n\n1. 当 \\( x < -1 \\) 时，\\( f(x) = -(x - 3) + 2(-(x + 1)) = -x + 3 - 2x - 2 = -3x + 1 \\)。\n2. 当 \\( -1 \\leq x < 3 \\) 时，\\( f(x) = -(x - 3) + 2(x + 1) = -x + 3 + 2x + 2 = x + 5 \\)。\n3. 当 \\( x \\geq 3 \\) 时，\\( f(x) = (x - 3) + 2(x + 1) = x - 3 + 2x + 2 = 3x - 1 \\)。\n\n现在，我们要求解不等式 \\( f(x) > 5 \\)。\n\n- 对于 \\( x < -1 \\)，不等式变为