专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
51好读  ›  专栏  ›  我爱计算机视觉

多模态文档理解新挑战!字节跳动、华中科技大学联合发布WildDoc基准,揭示真实场景下MLLMs的文...

我爱计算机视觉  · 公众号  ·  · 2025-05-26 13:28

正文

请到「今天看啥」查看全文


为了严格评估模型的鲁棒性,WildDoc构建了一致性评估指标(Consistency Score)。实验发现主流 MLLMs 在 WildDoc 上性能显著下降,揭示了现有模型在真实场景文档理解的性能瓶颈,并为技术改进提供可验证的方向。本工作不仅填补了真实场景基准的空白,更推动文档理解研究向 “实用化、泛化性” 迈出关键一步。

  • 论文标题:WildDoc: How Far Are We from Achieving Comprehensive and Robust Document Understanding in the Wild?
  • 论文链接:https://arxiv.org/abs/2505.11015
  • 项目主页:https://bytedance.github.io/WildDoc/
  • Github:https://github.com/bytedance/WildDoc

WildDoc数据构造与组成

WildDoc数据包含超 1.2 万张手动采集的真实文档图像,模拟自然环境中的复杂挑战,并引入一致性分数指标,量化评估模型在跨场景下的鲁棒性。WildDoc目前已开源全部12K+图像与48K+问答对,其构造过程如下:

  1. 数据采集:
  • 场景多样化:在自然环境(如户外、室内不同光照条件)中手动拍摄文档,确保覆盖环境、光照、视角等多维度干扰因素。
  • 基准对齐:复用现有基准的电子文档,通过物理打印后拍摄,保证与传统基准的可比性。
  1. 多条件拍摄:






请到「今天看啥」查看全文