专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
软件定义世界(SDX)  ·  DeepSeek使用技巧与提示词应用 ·  昨天  
InfoTech  ·  6月AIGC认证考试安排 ·  4 天前  
软件定义世界(SDX)  ·  数据资源入表的理论溯源与研究路径 ·  3 天前  
51好读  ›  专栏  ›  数据派THU

ACL’25 | 群体比较推理释放LLM-as-a-Judge 在评测中的scaling效果

数据派THU  · 公众号  · 大数据  · 2025-06-16 17:00

正文

请到「今天看啥」查看全文


做出判断



这里的目标是确保模型给出的判断 与人类评测高度一致。在两两比较场景中,这种一致性通常通过与人类标签相比的准确率来衡量。


群体回复与判断生成 : 基于任务指令 ,我们首先利用LLM生成 个合成的群体回复{ }。为了提高这些回复的多样性,我们可以使用不同规模的LLM,从小模型(如Qwen2.5-0.5B-Instruct)到大模型(如Mistral-Nemo-Instruct-2407),并采用不同的温度参数。理论上,多样化的回复能覆盖更广泛的场景。当这些群体回复与候选回复 进行对比时,能够强调不同的细节,提供更全面的视角,促进更深入的推理。如图2所示,群体判断揭示了“he”的重要性,其中回复A巧妙地将动作主体“he”转换为对象“task”本身,从而违反了指令中关于改写但保持原意的要求。我们随后利用这一信息作为上下文强化后续的CoT推理。 这种优势优于标准扩展,因为后者无法预先提示此类细节 。 对于每个合成的群体回复 分别独立地产生两个群体判断和,通过分别将与 进行比较:








请到「今天看啥」查看全文