专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

让GPT-4o准确率大降,这个文档理解新基准揭秘大模型短板

机器之心  · 公众号  · AI  · 2025-05-24 12:07

主要观点总结

本文介绍了字节跳动算法工程师团队联合华中科技大学打造的WildDoc数据集,旨在解决文档理解领域的多模态大模型(MLLMs)在真实场景下的鲁棒性问题。WildDoc数据集包含超过12,000张手动拍摄的图片,覆盖了真实世界中的多种影响因素,为模型评估提供了更贴近实际的基准。实验发现主流MLLMs在WildDoc上的性能显著下降,揭示了现有模型在真实场景文档理解的性能瓶颈。文章还提出了改进策略,为未来的研究指明了方向。

关键观点总结

关键观点1: WildDoc数据集的创建背景和目的

为了解决文档理解领域多模态大模型在真实场景下的鲁棒性问题,字节跳动算法工程师团队联合华中科技大学创建了WildDoc数据集。该数据集旨在模拟真实环境中的复杂挑战,评估模型的鲁棒性。

关键观点2: WildDoc数据集的特点

WildDoc数据集包含超过12,000张手动拍摄的真实文档图像,覆盖了环境、光照、视角、扭曲和拍摄效果等多个影响因素。数据集通过一致性评估指标来量化模型在跨场景下的鲁棒性。

关键观点3: 实验发现和性能分析

实验发现主流的多模态大模型在WildDoc数据集上的性能显著下降,与传统文档基准测试相比,模型在实际环境中的表现存疑。物理扭曲是最具挑战性的因素之一,非正面视角和图像质量也对模型性能产生影响。实验结果揭示了现有模型在真实场景文档理解的性能瓶颈。

关键观点4: 研究团队提出的改进策略

为了克服这些挑战,研究团队提出了数据增强、鲁棒特征学习和真实数据引入等改进策略。这些策略旨在提高模型的适应能力、提取对真实世界变化不敏感的特征,并提升模型的性能。


正文

请到「今天看啥」查看全文



为了严格评估模型的鲁棒性,WildDoc 构建了一致性评估指标(Consistency Score)。实验发现主流 MLLMs 在 WildDoc 上性能显著下降,揭示了现有模型在真实场景文档理解的性能瓶颈,并为技术改进提供可验证的方向。本工作不仅填补了真实场景基准的空白,更推动文档理解研究向「实用化、泛化性」迈出关键一步。



  • 论文链接:https://arxiv.org/abs/2505.11015

  • 项目主页:https://bytedance.github.io/WildDoc/

  • Github:https://github.com/bytedance/WildDoc


WildDoc 数据构造与组成


WildDoc 数据包含超 1.2 万张手动采集的真实文档图像,模拟自然环境中的复杂挑战,并引入一致性分数指标,量化评估模型在跨场景下的鲁棒性。WildDoc 目前已开源全部 12K + 图像与 48K + 问答对,其构造过程如下:


1、数据采集:


  • 场景多样化:在自然环境(如户外、室内不同光照条件)中手动拍摄文档,确保覆盖环境、光照、视角等多维度干扰因素。

  • 基准对齐:复用现有基准的电子文档,通过物理打印后拍摄,保证与传统基准的可比性。


2、多条件拍摄:







请到「今天看啥」查看全文