正文
-
全线细粒度特质评分:
构建涵盖词汇准确性(LA)、词汇多样性(LD)、语法准确性(GA)、语法多样性(GD)、标点准确性(PA)、句间连贯性(CH)、文章结构(OS)、论点清晰度(AC)、论证说服力(JP)以及文章长度(EL)等十项特质的细粒度评分框架,覆盖从词汇、句子到篇章三个层级,全面衡量写作质量。
-
大规模、高质量图文数据:
收录 1,054 篇真实图文作文,涵盖 125 个多样主题,配套七类图表形式,包括流程图、柱状图、线图、表格、饼图、地图与组合图表,全面考验模型的图文信息整合与语义理解能力。
-
深度图文融合设定:
作文内容高度依赖图像信息作为论据来源,促使模型在评分过程中充分理解图文关系,实现对上下文、推理链条的深层建模。
基准设计与评分系统
1. 10 项细粒度评分维度
:
-
词汇层面:Lexical Accuracy (LA), Lexical Diversity (LD)
-
句子层面:Grammatical Accuracy (GA), Grammatical Diversity (GD), Punctuation Accuracy (PA), Coherence (CH)
-
文章层面:Organizational Structure (OS), Argument Clarity (AC), Justifying Persuasiveness (JP), Essay Length (EL)
2. 共进行了 18 个多模态大语言模型的综合对比,分为两类
:
Open-Source MLLMs
:
我们评估了多个当前主流的开源多模态大模型,包括 Yi-VL、Qwen2-VL、DeepSeek-VL、LLaVA-NEXT、InternVL2、InternVL2.5、MiniCPM-V2.6、MiniCPM-LLaMA3-V2.5、Ovis1.6-Gemma2 以及 LLaMA-3.2-Vision。
上述模型均具备图文输入能力,广泛用于学术与产业中的多模态理解任务,代表开源社区在图文评分能力上的前沿水平。
Closed-Source MLLMs
:
同时,我们引入了多种闭源 SOTA 多模态模型作为性能上限的对比参考,包括 Qwen-Max、Step-1V、Gemini-1.5-Pro、Gemini-1.5-Flash、Claude-3.5-Haiku、Claude-3.5-Sonnet、GPT-4o-mini 以及 GPT-4o。
这些模型具备较强的图文推理与生成能力,是闭源系统中的代表性旗舰模型。
MLLM 全面评估结果
4.1 主要结论
Closed-Source 模型重现总优势
:
如上图大表我们可以发现,闭源模型普遍比开源模型表现好,其中 GPT-4o 突出地在 9 项特质中功能最强;Open-Source 表现有限:InternVL2 总优势最好,但完全落后 GPT-4o。