专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
大数据文摘  ·  一手硬科技,一手软实力,Deepseek和L ... ·  2 天前  
人工智能与大数据技术  ·  两周生成1.2万行代码!10年码龄开发者对A ... ·  2 天前  
InfoTech  ·  月薪40K的思维方式 ·  昨天  
CDA数据分析师  ·  【干货】如何用 AI 从0到1 ... ·  2 天前  
51好读  ›  专栏  ›  数据派THU

性能准确率突破96%!上海算法创新研究院发布xVerify:面向推理模型的答案评估器

数据派THU  · 公众号  · 大数据  · 2025-05-15 17:00

正文

请到「今天看啥」查看全文



在数据标注过程中,该团队采用 GPT-4o 和人工标注团队对对训练集和测试集进行多轮标注和复核,以确保标注的准确性和一致性。具体而言,他们首先使用 GPT-4o 基于不同的提示词进行两轮自动标注,针对标注结果中存在分歧或涉及复杂数学表达的样本进行人工复核。

针对测试集和泛化集,他们采取更严格的质量控制措施,所有数据均由人工再次标注,以确保其作为高质量评估基准,能够准确衡量模型的有效性和泛化能力。

最终,基于精心设计的数据收集、回答生成、数据划分以及标注策略,该团队最终构建了 Verify Answer for Reasoning (VAR) 数据集,一个多样化、高质量的长推理链数据集。

VAR 数据集包含训练集(43204)、测试集(6122)和泛化集(6468),训练集和测试集用于训练和评估 xVerify 模型,而泛化集作为测试集的补充,用于检验 xVerify 在更多样化的评估场景中的泛化能力。

📌 第二阶段:模型训练

该研究基于 LLama-Factory 框架,在 VAR 数据集的训练集上针对多个模型进行微调,所使用的基座模型涵盖了不同的架构(如 Qwen2.5、Gemma2、Phi-4 系列)和参数规模(0.5B 至 32B)。

最终所有 xVerify 模型均展现出超过较高的高准确率,尤其在处理长推理链、数学表达式等价性判断等核心任务中表现显著优于传统方法。

三、实验对比

该研究通过四类题型(多选题、数学题、简答题、分类题)与主流评估方法(评估框架和 Judge Model)进行对比,结果显示,xVerify 在不同题型上的评估准确率均有显著优势,且具有良好的泛化性能。

即使是最小的 xVerify 模型( xVerify-0.5B-I),其表现仍然能全面超越除 GPT-4o 外的所有方法,而 xVerify-3B-Ib 则全面超越其他方法。

  • 测试集评估结果

Image

  • 泛化集评估结果

Image

此外,论文附录中还提供了全部 14 个 xVerify 模型的完整评估结果,并针对对比了所有 judge model 和 xVerify 模型的评估效率,实验结果显示 xVerify 模型的推理效率显著优于其他模型。

Image

四、xVerify 评估示例

● 数学题
{"index"1,"question""$已知函数f(x)=|x-a|+2|x+1|(a>0)。$\n$若a=3,求不等式 f(x)>5 的解集;$","correct_answer""$(-\\infty ,-\\frac{4}{3})\\cup (0,+\\infty )$","llm_output""\n首先,我们考虑函数 \\( f(x) = |x - 3| + 2|x + 1| \\) 在 \\( a = 3 \\) 时的形式。\n\n接下来,我们需要确定函数 \\( f(x) \\) 的分段形式。由于 \\( |x - 3| \\) 和 \\( |x + 1| \\) 都是绝对值函数,我们需要找到 \\( x \\) 的值,使得这些绝对值函数内部的表达式为零,即 \\( x = 3 \\) 和 \\( x = -1 \\)。\n\n因此,函数 \\( f(x) \\) 可以分为三个部分:\n\n1. 当 \\( x < -1 \\) 时,\\( f(x) = -(x - 3) + 2(-(x + 1)) = -x + 3 - 2x - 2 = -3x + 1 \\)。\n2. 当 \\( -1 \\leq x < 3 \\) 时,\\( f(x) = -(x - 3) + 2(x + 1) = -x + 3 + 2x + 2 = x + 5 \\)。\n3. 当 \\( x \\geq 3 \\) 时,\\( f(x) = (x - 3) + 2(x + 1) = x - 3 + 2x + 2 = 3x - 1 \\)。\n\n现在,我们要求解不等式 \\( f(x) > 5 \\)。\n\n- 对于 \\( x < -1 \\),不等式变为 






请到「今天看啥」查看全文