专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

ACL 2025 | 多维阅卷，智识觉醒：港科广打开多模态大模型看图写作评估的认知之门

PaperWeekly · 公众号 · 科研 · 2025-06-11 12:31

正文

请到「今天看啥」查看全文

全线细粒度特质评分：构建涵盖词汇准确性（LA）、词汇多样性（LD）、语法准确性（GA）、语法多样性（GD）、标点准确性（PA）、句间连贯性（CH）、文章结构（OS）、论点清晰度（AC）、论证说服力（JP）以及文章长度（EL）等十项特质的细粒度评分框架，覆盖从词汇、句子到篇章三个层级，全面衡量写作质量。
大规模、高质量图文数据：收录 1,054 篇真实图文作文，涵盖 125 个多样主题，配套七类图表形式，包括流程图、柱状图、线图、表格、饼图、地图与组合图表，全面考验模型的图文信息整合与语义理解能力。
深度图文融合设定：作文内容高度依赖图像信息作为论据来源，促使模型在评分过程中充分理解图文关系，实现对上下文、推理链条的深层建模。

基准设计与评分系统

1. 10 项细粒度评分维度：

词汇层面：Lexical Accuracy (LA), Lexical Diversity (LD)
句子层面：Grammatical Accuracy (GA), Grammatical Diversity (GD), Punctuation Accuracy (PA), Coherence (CH)
文章层面：Organizational Structure (OS), Argument Clarity (AC), Justifying Persuasiveness (JP), Essay Length (EL)

2. 共进行了 18 个多模态大语言模型的综合对比，分为两类：

Open-Source MLLMs ：我们评估了多个当前主流的开源多模态大模型，包括 Yi-VL、Qwen2-VL、DeepSeek-VL、LLaVA-NEXT、InternVL2、InternVL2.5、MiniCPM-V2.6、MiniCPM-LLaMA3-V2.5、Ovis1.6-Gemma2 以及 LLaMA-3.2-Vision。

上述模型均具备图文输入能力，广泛用于学术与产业中的多模态理解任务，代表开源社区在图文评分能力上的前沿水平。

Closed-Source MLLMs ：同时，我们引入了多种闭源 SOTA 多模态模型作为性能上限的对比参考，包括 Qwen-Max、Step-1V、Gemini-1.5-Pro、Gemini-1.5-Flash、Claude-3.5-Haiku、Claude-3.5-Sonnet、GPT-4o-mini 以及 GPT-4o。

这些模型具备较强的图文推理与生成能力，是闭源系统中的代表性旗舰模型。