让GPT-4o准确率大降，这个文档理解新基准揭秘大模型短板

机器之心 · 公众号 · AI · 2025-05-24 12:07

主要观点总结

本文介绍了字节跳动算法工程师团队联合华中科技大学打造的WildDoc数据集，旨在解决文档理解领域的多模态大模型（MLLMs）在真实场景下的鲁棒性问题。WildDoc数据集包含超过12,000张手动拍摄的图片，覆盖了真实世界中的多种影响因素，为模型评估提供了更贴近实际的基准。实验发现主流MLLMs在WildDoc上的性能显著下降，揭示了现有模型在真实场景文档理解的性能瓶颈。文章还提出了改进策略，为未来的研究指明了方向。

关键观点总结

关键观点1: WildDoc数据集的创建背景和目的

为了解决文档理解领域多模态大模型在真实场景下的鲁棒性问题，字节跳动算法工程师团队联合华中科技大学创建了WildDoc数据集。该数据集旨在模拟真实环境中的复杂挑战，评估模型的鲁棒性。

关键观点2: WildDoc数据集的特点

WildDoc数据集包含超过12,000张手动拍摄的真实文档图像，覆盖了环境、光照、视角、扭曲和拍摄效果等多个影响因素。数据集通过一致性评估指标来量化模型在跨场景下的鲁棒性。

关键观点3: 实验发现和性能分析

实验发现主流的多模态大模型在WildDoc数据集上的性能显著下降，与传统文档基准测试相比，模型在实际环境中的表现存疑。物理扭曲是最具挑战性的因素之一，非正面视角和图像质量也对模型性能产生影响。实验结果揭示了现有模型在真实场景文档理解的性能瓶颈。

关键观点4: 研究团队提出的改进策略

为了克服这些挑战，研究团队提出了数据增强、鲁棒特征学习和真实数据引入等改进策略。这些策略旨在提高模型的适应能力、提取对真实世界变化不敏感的特征，并提升模型的性能。

正文

请到「今天看啥」查看全文

为了严格评估模型的鲁棒性，WildDoc 构建了一致性评估指标（Consistency Score）。实验发现主流 MLLMs 在 WildDoc 上性能显著下降，揭示了现有模型在真实场景文档理解的性能瓶颈，并为技术改进提供可验证的方向。本工作不仅填补了真实场景基准的空白，更推动文档理解研究向「实用化、泛化性」迈出关键一步。

论文链接：https://arxiv.org/abs/2505.11015
项目主页：https://bytedance.github.io/WildDoc/
Github：https://github.com/bytedance/WildDoc

WildDoc 数据构造与组成

WildDoc 数据包含超 1.2 万张手动采集的真实文档图像，模拟自然环境中的复杂挑战，并引入一致性分数指标，量化评估模型在跨场景下的鲁棒性。WildDoc 目前已开源全部 12K + 图像与 48K + 问答对，其构造过程如下：

1、数据采集：

场景多样化：在自然环境（如户外、室内不同光照条件）中手动拍摄文档，确保覆盖环境、光照、视角等多维度干扰因素。
基准对齐：复用现有基准的电子文档，通过物理打印后拍摄，保证与传统基准的可比性。

2、多条件拍摄：