正文
在多模态学习的浪潮下,大型模型(MLLMs)在“看图说话”和“听声答题”等任务上表现出色。然而,令人惊讶的是,它们在“数一数”这种看似简单的小事上却常常出错。
例如,“视频中跳水前到底喊了几声?”、“鸡圈里到底有几只鸡?”或者“房间里到底有几种颜色的花盆?”这些看似简单的问题,却暴露出多模态大模型在细粒度感知、时空定位以及推理链构建等方面的重大短板。
计数任务:多模态理解的试金石,却也是软肋
近年来,多模态大模型(MLLMs)快速崛起,已在图像描述、视频问答、时空定位等任务中取得惊艳成绩。然而,这些模型在计数任务中的表现,却远远落后于其他任务。
计数问题看似简单,实则蕴含着模型推理能力的集中考验:
问题
|
背后考验的能力
|
鸡圈里有几只鸡?
|
物体识别 + 多实例去重 + 时空追踪
|
跳水前喊了几声?
|
音频识别 + 时间轴事件定位
|
卧室里有几种颜色的花盆?
|
属性分类 + 群组聚合 + 视觉对比
|
这些任务不仅仅是“识别”,更是
细粒度对齐、模态融合和逻辑推理
的集合体,要求模型具备以下能力:
明确目标:知道“数的是谁”
对齐模态:能从视觉/音频中捕捉到相关线索
理解时序:区分出现顺序与重复实例
控制输出:准确输出数字,且符合格式要求
当前的多模态模型缺乏专门的数据和训练策略,在这些方面几乎处于“裸奔”状态。最核心的问题是现有评估体系不足,甚至无法判断模型究竟是“真的会数”,还是“猜了个接近的数”。
CG-AV-Counting:打破“蒙对也算对”的计数评估方式
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs
论文:https://arxiv.org/abs/2506.05328
Hugging Face 页面:
https://huggingface.co/papers/2506.05328
项目主页:
https://av-reasoner.github.io
为了解决“评估不准确”的问题,研究人员构建了 CG-AV-Counting,这是目前最复杂、最可解释的多模态计数评估基准。
数据特点:
·
497 条视频
,全部为真实世界场景,
每条超过 10 分钟
·
1,027 个计数问题
,覆盖
视觉、听觉、视听混合、交叉查询等多模态形式
·
5,845 条人工标注的线索
,首次提供
细粒度计数证据
(例如每只鸡的位置、每声喊叫的时间区间)
·
3类计数对象,
涵盖了事件、物体、属性的计数对象,全面评估模型的时空定位与推理能力
双重评估方法:
·
黑盒评估:
只看最终答案准不准
·
白盒评估:
看模型能不能准确指出每个事件/物体/属性的“位置”,从而解释为什么是这个数。为此,我们提出了一个新的综合指标 WCS,用来衡量模型“数得对 + 数得明白”的能力。
评测结果:
CG-AV-Counting 的评测结果表明,当前主流的多模态大模型在长视频计数任务上整体表现不佳,尤其在需要明确推理过程的白盒评估中普遍得分严重。尽管闭源模型(如
Gemini 2.5 Pro
)表现优于开源模型,但即便最强的模型与人类水平仍有显著差距。同时,多数音视频模型未能充分利用音频模态,反映出当前MLLMs在时序对齐、线索定位和格式控制等方面仍存在明显短板,凸显了精细化监督与结构化评估的重要性。