正文
在数据标注过程中,该团队采用 GPT-4o 和人工标注团队对对训练集和测试集进行多轮标注和复核,以确保标注的准确性和一致性。具体而言,他们首先使用 GPT-4o 基于不同的提示词进行两轮自动标注,针对标注结果中存在分歧或涉及复杂数学表达的样本进行人工复核。
针对测试集和泛化集,他们采取更严格的质量控制措施,所有数据均由人工再次标注,以确保其作为高质量评估基准,能够准确衡量模型的有效性和泛化能力。
最终,基于精心设计的数据收集、回答生成、数据划分以及标注策略,该团队最终构建了 Verify Answer for Reasoning (VAR) 数据集,一个多样化、高质量的长推理链数据集。
VAR 数据集包含训练集(43204)、测试集(6122)和泛化集(6468),训练集和测试集用于训练和评估 xVerify 模型,而泛化集作为测试集的补充,用于检验 xVerify 在更多样化的评估场景中的泛化能力。
该研究基于 LLama-Factory 框架,在 VAR 数据集的训练集上针对多个模型进行微调,所使用的基座模型涵盖了不同的架构(如 Qwen2.5、Gemma2、Phi-4 系列)和参数规模(0.5B 至 32B)。
最终所有 xVerify 模型均展现出超过较高的高准确率,尤其在处理长推理链、数学表达式等价性判断等核心任务中表现显著优于传统方法。
该研究通过四类题型(多选题、数学题、简答题、分类题)与主流评估方法(评估框架和 Judge Model)进行对比,结果显示,xVerify 在不同题型上的评估准确率均有显著优势,且具有良好的泛化性能。
即使是最小的 xVerify 模型( xVerify-0.5B-I),其表现仍然能全面超越除 GPT-4o 外的所有方法,而 xVerify-3B-Ib 则全面超越其他方法。
此外,论文附录中还提供了全部 14 个 xVerify 模型的完整评估结果,并针对对比了所有 judge model 和 xVerify 模型的评估效率,实验结果显示 xVerify 模型的推理效率显著优于其他模型。
{
"index": 1,
"question": "$已知函数f(x)=|x-a|+2|x+1|(a>0)。$\n$若a=3,求不等式 f(x)>5 的解集;$",
"correct_answer": "$(-\\infty ,-\\frac{4}{3})\\cup (0,+\\infty )$",
"llm_output": "\n首先,我们考虑函数 \\( f(x) = |x - 3| + 2|x + 1| \\) 在 \\( a = 3 \\) 时的形式。\n\n接下来,我们需要确定函数 \\( f(x) \\) 的分段形式。由于 \\( |x - 3| \\) 和 \\( |x + 1| \\) 都是绝对值函数,我们需要找到 \\( x \\) 的值,使得这些绝对值函数内部的表达式为零,即 \\( x = 3 \\) 和 \\( x = -1 \\)。\n\n因此,函数 \\( f(x) \\) 可以分为三个部分:\n\n1. 当 \\( x < -1 \\) 时,\\( f(x) = -(x - 3) + 2(-(x + 1)) = -x + 3 - 2x - 2 = -3x + 1 \\)。\n2. 当 \\( -1 \\leq x < 3 \\) 时,\\( f(x) = -(x - 3) + 2(x + 1) = -x + 3 + 2x + 2 = x + 5 \\)。\n3. 当 \\( x \\geq 3 \\) 时,\\( f(x) = (x - 3) + 2(x + 1) = x - 3 + 2x + 2 = 3x - 1 \\)。\n\n现在,我们要求解不等式 \\( f(x) > 5 \\)。\n\n- 对于 \\( x < -1 \\),不等式变为