专栏名称: CVer
一个专注侃侃计算机视觉方向的公众号。计算机视觉、图像处理、机器学习、深度学习、C/C++、Python、诗和远方等。
目录
相关文章推荐
Supreme情报网  ·  原价起飞!「LV阿甘鞋」贵替铺货,仅需920 ... ·  11 小时前  
Supreme情报网  ·  原价起飞!「LV阿甘鞋」贵替铺货,仅需920 ... ·  11 小时前  
物道  ·  越来越多的年轻人爱上了焚香? ·  15 小时前  
江南都市报  ·  优衣库官宣和Labubu联名,上市销售时间为 ... ·  23 小时前  
物道  ·  一日道|相遇,是一场盛大的回归 ·  昨天  
51好读  ›  专栏  ›  CVer

打破多模态大模型“数不清”的瓶颈,音视频计数推理的新基准来了!

CVer  · 公众号  ·  · 2025-06-13 23:59

正文

请到「今天看啥」查看全文


在多模态学习的浪潮下,大型模型(MLLMs)在“看图说话”和“听声答题”等任务上表现出色。然而,令人惊讶的是,它们在“数一数”这种看似简单的小事上却常常出错。

例如,“视频中跳水前到底喊了几声?”、“鸡圈里到底有几只鸡?”或者“房间里到底有几种颜色的花盆?”这些看似简单的问题,却暴露出多模态大模型在细粒度感知、时空定位以及推理链构建等方面的重大短板。

计数任务:多模态理解的试金石,却也是软肋

近年来,多模态大模型(MLLMs)快速崛起,已在图像描述、视频问答、时空定位等任务中取得惊艳成绩。然而,这些模型在计数任务中的表现,却远远落后于其他任务。

计数问题看似简单,实则蕴含着模型推理能力的集中考验:

问题

背后考验的能力

鸡圈里有几只鸡?

物体识别 + 多实例去重 + 时空追踪

跳水前喊了几声?

音频识别 + 时间轴事件定位

卧室里有几种颜色的花盆?

属性分类 + 群组聚合 + 视觉对比

这些任务不仅仅是“识别”,更是 细粒度对齐、模态融合和逻辑推理 的集合体,要求模型具备以下能力:

明确目标:知道“数的是谁”

对齐模态:能从视觉/音频中捕捉到相关线索

理解时序:区分出现顺序与重复实例

控制输出:准确输出数字,且符合格式要求

当前的多模态模型缺乏专门的数据和训练策略,在这些方面几乎处于“裸奔”状态。最核心的问题是现有评估体系不足,甚至无法判断模型究竟是“真的会数”,还是“猜了个接近的数”。

CG-AV-Counting:打破“蒙对也算对”的计数评估方式

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

论文:https://arxiv.org/abs/2506.05328

Hugging Face 页面:

https://huggingface.co/papers/2506.05328

项目主页:

https://av-reasoner.github.io

为了解决“评估不准确”的问题,研究人员构建了 CG-AV-Counting,这是目前最复杂、最可解释的多模态计数评估基准。

数据特点:

· 497 条视频 ,全部为真实世界场景, 每条超过 10 分钟

· 1,027 个计数问题 ,覆盖 视觉、听觉、视听混合、交叉查询等多模态形式

· 5,845 条人工标注的线索 ,首次提供 细粒度计数证据 (例如每只鸡的位置、每声喊叫的时间区间)

· 3类计数对象, 涵盖了事件、物体、属性的计数对象,全面评估模型的时空定位与推理能力

双重评估方法:

· 黑盒评估: 只看最终答案准不准

· 白盒评估: 看模型能不能准确指出每个事件/物体/属性的“位置”,从而解释为什么是这个数。为此,我们提出了一个新的综合指标 WCS,用来衡量模型“数得对 + 数得明白”的能力。

评测结果:

CG-AV-Counting 的评测结果表明,当前主流的多模态大模型在长视频计数任务上整体表现不佳,尤其在需要明确推理过程的白盒评估中普遍得分严重。尽管闭源模型(如 Gemini 2.5 Pro )表现优于开源模型,但即便最强的模型与人类水平仍有显著差距。同时,多数音视频模型未能充分利用音频模态,反映出当前MLLMs在时序对齐、线索定位和格式控制等方面仍存在明显短板,凸显了精细化监督与结构化评估的重要性。







请到「今天看啥」查看全文