olmOCR,将 PDF 和其他基于图像的文档格式转换为干净、可读、纯文本格式的工具包。12K⭐
1. 将基于 PDF、PNG 和 JPEG 的文档转换为干净的 Markdown
2. 支持方程式、表格、手写和复杂格式
3. 自动删除页眉和页脚
4. 转换为具有自然阅读顺序的文本,即使存在图形、多列布局和插图
5. 高效,每转换一百万页的成本不到 200 美元
访问:github.com/allenai/olmocr
#人工智能#
1. 将基于 PDF、PNG 和 JPEG 的文档转换为干净的 Markdown
2. 支持方程式、表格、手写和复杂格式
3. 自动删除页眉和页脚
4. 转换为具有自然阅读顺序的文本,即使存在图形、多列布局和插图
5. 高效,每转换一百万页的成本不到 200 美元
访问:github.com/allenai/olmocr
#人工智能#