专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
相关文章推荐
科研大匠  ·  重磅:2026QS世界大学排名公布!72所中 ... ·  昨天  
科研大匠  ·  重磅:全面超越CNS,国产神刊IF=52.7 ... ·  昨天  
自然系列  ·  新刊推荐 | APPS访谈: 对话主编单杨院士 ·  4 天前  
51好读  ›  专栏  ›  PaperWeekly

ACL 2025 | 深入浅出看关系:探索多模态大模型关系“幻觉”问题

PaperWeekly  · 公众号  · 科研  · 2025-06-18 21:32

正文

请到「今天看啥」查看全文


研究者们首先对“关系幻觉”给出了系统性的定义,从 感知 (Perceptive)和 认知 (Cognitive)两个维度进行剖析。


  • 感知关系:指的是那些具体的空间方位关系,比如“在…上(on)”、“在…后面(behind)”、“在…里面(in)”等。

  • 认知关系:则包含更抽象的动作或状态,比如“吹(blowing)”、“看(watching)”、“读(reading)”等。

为了保证“考题”的真实性和高质量,Reefknot 的构建过程可谓煞费苦心:

▲ Reefknot 数据集构建流程


⦁ 数据来源:核心数据来源于广泛使用的 Visual Genome 场景图数据集,确保了场景的真实性和多样性。

拒绝“二手”信息:Reefknot 中的关系三元组(例如: )直接从原始数据中提取,更符合关系词在日常生活中的分布,力求原汁原味。


严格筛选与分类:


  • 首先研究团队对从 VG 数据中构建场景图并识别出的关系三元组进行过滤,去除冗余、错误或描述不清的信息。

  • 随后利用 GPT 辅助,将筛选后的关系精心划分为“感知”和“认知”两大类。

多样化的“考查方式”:Reefknot 设计了三种不同的提问方式,全方位考察模型对关系的理解和推理能力:


  • “是不是”题(Yes / No):

    通过正负样本对比(比如同时问 “A 是不是在 B 的上面”和 “A 是不是在 B 的下面”),考察模型能否准确判断。

  • “选哪个”题(Multiple Choice Questions, MCQ):

    设置一个正确答案和三个干扰选项,在有限词汇内评估模型抵抗关系幻觉的能力。

  • “问与答”题(Visual Question Answering, VQA):

    开放式提问,全面评估模型的指令遵循能力和在开放环境下的关系感知能力。

专家“三堂会审”:


构建好的问题集还要经过至少三轮、四位领域专家的严格“人工审核”,剔除那些没有信息量(比如“窗户是不是在墙上?”这类无需看图就能回答的问题)或表述不当的问题,确保每一道“考题”都具有含金量。

▲ Reefknot 中的真实数据






请到「今天看啥」查看全文