专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
目录
相关文章推荐
阿里云云栖号  ·  阿里云全栈AI技术引擎驱动SaaS企业全球化 ... ·  2 天前  
老刘说NLP  ·  三种主流文本嵌入编码范式及KG-Infuse ... ·  2 天前  
蚂蚁技术AntTech  ·  南京大学与蚂蚁集团成立校级联合实验室,攻坚A ... ·  2 天前  
OSC开源社区  ·  AI ... ·  3 天前  
程序员的那些事  ·  离谱!裁员裁出新高度了。。。 ·  3 天前  
51好读  ›  专栏  ›  老刘说NLP

真实场景下文档解析中的2大类8个常见问题:目录层级解析、布局检测、阅读顺序及长表格拼接

老刘说NLP  · 公众号  · 程序员  · 2025-06-10 11:10

正文

请到「今天看啥」查看全文


使用两个模型,可以分别使用公开的布局检测数据和公式检测数据(例如公式检测数据里边没有标注布局信息,需要重新标注才能用)

使用两个模型,将布局检测标注和公式检测标注任务解耦,能大幅提升标注效率。 布局检测标注关注页面的多样性;公式检测关注具有公式的页面,且需足够多样;公式检测和布局检测的样本解耦,对标注员更加容易理解,标注效率高

2、 布局检测的问题,这说的是模型泛化性的问题 。https://github.com/opendatalab/MinerU/issues/2303,

这种问题是因为文档block块之间的间距太大了,判定为一个整体的特征并不明显。至于解法,可以补充相应的数据集。

3、阅读顺序的错误识别问题

还有版面分析左右布局阅读顺序的识别错误 ,https://github.com/opendatalab/MinerU/issues/1882

又如:

基于这种检测手段,在后续解析的过程中,会明显出现对标题截断分成了两个标题的情况,并且中间还存在标题右侧的相关信息。







请到「今天看啥」查看全文