专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
相关文章推荐
环球科学科研圈  ·  到2025年底,AI的能耗或将超过加密货币挖 ... ·  昨天  
募格学术  ·  首个!211,启动国家级项目! ·  2 天前  
募格学术  ·  靠谱的论文润色机构到底怎么找? ·  2 天前  
社会学理论大缸  ·  大师|87位文化研究必读大师!一文集齐!推荐收藏! ·  2 天前  
51好读  ›  专栏  ›  PaperWeekly

Image Caption复兴宣言!南大港大CapArena重塑「详细图像描述」评测体系

PaperWeekly  · 公众号  · 科研  · 2025-06-12 12:33

正文

请到「今天看啥」查看全文



基于此,本工作创新提出带参考描述的 VLM-as-a-Judge 方法,其在不同层级均展现与人类判断的高度一致性,并据此发布自动化评测基准 CapArena-Auto——通过 600 样本的成对比较范式,结合三基线模型对比策略,仅需 4 美元/次测试即可实现 94.3% 的人类排名相关性,为高效、可靠的详细描述评估建立新范式。


该成果不仅填补了 LLM 时代图像描述生成的评测空白,更为模型能力诊断、优化迭代及轻量化开发提供了关键工具与方法论支撑。



CapArena 人工评测体系

2 .1 CapArena 标注平台

本研究构建 CapArena 评测体系,首次通过大规模人类标注与创新的标注体系,系统评估 14 个先进 VLMs 的详细描述能力,并揭示关键发现。


借鉴 Chatbot Arena,团队构建了 CapArena 平台,突破传统评分制的局限性,参考大语言模型开放域评测经验,设计匿名成对比较法(Pairwise Comparison),以模型间“对战”形式提升评估可靠性。


平台引入创新性的动态优化算法:通过控制采样概率的策略加速模型排名收敛,结合 Bradley-Terry 模型计算置信区间,确保排名统计显著性。


规定 次采样的协方差矩阵,那么 时刻对于模型对 的采样概率 设置为:

2.2 数据来源与标注协议

研究团队采用 DOCCI 数据集的高分辨率图像及人工撰写长描述作为基础,覆盖多样化真实场景,并精选涵盖商业与开源模型的 14 个 VLMs(如 GPT-4o、Llama-3.2、InternVL2-26B)在图像集上生成描述,设计精简提示词控制生成质量。

评测协议聚焦三大核心维度:精确性(描述与图像细节的严格对齐,如物体属性、空间关系)、信息量(关键内容的覆盖全面性)以及幻觉抑制(对虚构内容的惩罚),同时要求专注于质量(如忽略文本长度干扰、优先质量评估)。通过规范标注协议,有效降低主观偏差。


最终,标注团队完成 6,522 条标注,标注者内部一致性达 0.782,单条标注平均耗时 142 秒。







请到「今天看啥」查看全文