专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
相关文章推荐
研之成理  ·  大连化物所田志坚研究员团队ACS ... ·  23 小时前  
研之成理  ·  南开大学王浩课题组最新JACS:氮宾介导的不 ... ·  23 小时前  
募格学术  ·  靠谱的论文润色机构到底怎么找? ·  昨天  
环球科学科研圈  ·  手机上也能刷论文,还自带解读? ·  2 天前  
51好读  ›  专栏  ›  PaperWeekly

ACL 2025 | 多维阅卷,智识觉醒:港科广打开多模态大模型看图写作评估的认知之门

PaperWeekly  · 公众号  · 科研  · 2025-06-11 12:31

正文

请到「今天看啥」查看全文



  • 全线细粒度特质评分: 构建涵盖词汇准确性(LA)、词汇多样性(LD)、语法准确性(GA)、语法多样性(GD)、标点准确性(PA)、句间连贯性(CH)、文章结构(OS)、论点清晰度(AC)、论证说服力(JP)以及文章长度(EL)等十项特质的细粒度评分框架,覆盖从词汇、句子到篇章三个层级,全面衡量写作质量。

  • 大规模、高质量图文数据: 收录 1,054 篇真实图文作文,涵盖 125 个多样主题,配套七类图表形式,包括流程图、柱状图、线图、表格、饼图、地图与组合图表,全面考验模型的图文信息整合与语义理解能力。

  • 深度图文融合设定: 作文内容高度依赖图像信息作为论据来源,促使模型在评分过程中充分理解图文关系,实现对上下文、推理链条的深层建模。



基准设计与评分系统

1. 10 项细粒度评分维度


  • 词汇层面:Lexical Accuracy (LA), Lexical Diversity (LD)

  • 句子层面:Grammatical Accuracy (GA), Grammatical Diversity (GD), Punctuation Accuracy (PA), Coherence (CH)

  • 文章层面:Organizational Structure (OS), Argument Clarity (AC), Justifying Persuasiveness (JP), Essay Length (EL)

2. 共进行了 18 个多模态大语言模型的综合对比,分为两类


Open-Source MLLMs 我们评估了多个当前主流的开源多模态大模型,包括 Yi-VL、Qwen2-VL、DeepSeek-VL、LLaVA-NEXT、InternVL2、InternVL2.5、MiniCPM-V2.6、MiniCPM-LLaMA3-V2.5、Ovis1.6-Gemma2 以及 LLaMA-3.2-Vision。


上述模型均具备图文输入能力,广泛用于学术与产业中的多模态理解任务,代表开源社区在图文评分能力上的前沿水平。


Closed-Source MLLMs 同时,我们引入了多种闭源 SOTA 多模态模型作为性能上限的对比参考,包括 Qwen-Max、Step-1V、Gemini-1.5-Pro、Gemini-1.5-Flash、Claude-3.5-Haiku、Claude-3.5-Sonnet、GPT-4o-mini 以及 GPT-4o。


这些模型具备较强的图文推理与生成能力,是闭源系统中的代表性旗舰模型。



MLLM 全面评估结果

4.1 主要结论

Closed-Source 模型重现总优势 如上图大表我们可以发现,闭源模型普遍比开源模型表现好,其中 GPT-4o 突出地在 9 项特质中功能最强;Open-Source 表现有限:InternVL2 总优势最好,但完全落后 GPT-4o。







请到「今天看啥」查看全文