专栏名称: InfoQ
有内容的技术社区媒体。
目录
相关文章推荐
51好读  ›  专栏  ›  InfoQ

超越 OCR:AI 如何为企业文档处理带来变革

InfoQ  · 公众号  · 科技媒体  · 2025-05-25 10:40

正文

请到「今天看啥」查看全文


选择模型组合——即所谓的集成学习,通常是最佳策略。在金融或医疗保健等高度受监管的领域,精确性至关重要。在这种情况下,可以将 LayoutLM 和 Textract 搭配使用,其输出结果可以通过规则引擎或人工审核员进行交叉验证。相比之下,在零售收据解析等场景中,吞吐量比绝对精确性更重要,此时采用 Azure 表单识别器与启发式回退的组合可能就足够了。

图 2. 文档处理——高精确性与高吞吐量流程

解码文档中的视觉元素

除了文本内容外,许多文档还包含传达关键含义的视觉标记——复选框、表格、签名、印章和徽标。传统的 OCR 通常会忽略或误读这些内容。

计算机视觉技术能够有效填补这一空白。物体检测模型(如 YOLO 和 Faster R-CNN)可以识别复选框或徽标等元素。图像分割技术可用于解析表格和结构化布局。OpenCV 等工具可用于预处理——去除噪声、校正倾斜和增强对比度。在此基础上,LayoutLM 通过将位置编码与语言建模相结合,能够在整个文档范围内保持上下文的连贯性。

这些工具协同作用,使系统不仅能够解读文字内容,还能理解这些文字的呈现方式。

处理非结构化文档

非结构化文档——例如合同、法律备忘录或临床总结——缺乏明确定义的字段。从这类文档中提取信息需要理解其上下文。

这就是自然语言处理(NLP)大显身手的地方。针对特定领域(例如法律、医疗保健)进行微调的预训练语言模型可以识别关键实体,如姓名、日期、药物或义务。句子嵌入技术使系统能够将语义相似的段落组合在一起。将语言线索与布局特征相结合的混合方法取得了最佳效果。

这些技术在受监管的行业中显得尤为重要,因为在这些行业中,细微的上下文或措辞变化会完全改变文档的含义。

云服务:如何选择

基于云的文档 AI 服务让大规模文档处理能力的获取变得前所未有的便捷。用户能够轻松访问一系列强大的工具,包括用于 OCR 任务的预构建 API、文档分类服务、实体提取功能以及文档摘要工具等。这些工具能够快速得出结果,但没有两个平台的功能是完全相同的。不同的供应商专注于各自独特的优势领域,因此选择合适的服务对于构建生产级系统来说至关重要。

接下来我们对主要的供应商进行深入对比,并综合考量技术限制,做出能够有效支持业务目标的架构决策。

AWS Textract

对于那些已经融入 AWS 生态系统的企业来说,亚马逊的 Textract 服务是一个比较流行的选择。它在 结构化表单和表格提取 方面表现出色。其主要功能包括:

  • 自动检测键值对、表格和复选框;
  • 与 AWS Lambda、S3、Comprehend 和 Step Functions 等服务无缝集成;
  • 对表单的布局有一定的识别能力。

不过 Textract 有时候会生成冗长且略显冗余的输出,在处理视觉上较为复杂或质量退化的文档时会存在不一致的情况。此外,如果需要处理大量的页面,尤其是使用 AnalyzeDocument(对表格 / 表单单独收费)等功能时,成本可能会迅速增加。

最适合用于:金融服务或人力资源领域中的那些表单密集的工作流程,例如处理发票、收据、贷款申请或 W-2 文件等。

Google Document AI

谷歌的产品专注于 特定文档类型的预训练处理器 (例如发票、身份文件、W9 表单),并与谷歌的自然语言处理平台紧密集成。其主要优势包括:

  • 强大的语言语义解析和上下文理解能力;
  • 适用于非结构化和半结构化文档;
  • 对于多语言和手写输入,OCR 识别准确度较高。

不过,由于模型透明度有限且缺乏足够的定制性,谷歌文档 AI 对于那些需要精细控制微调行为的组织来说吸引力不足。在处理已知且受支持的文档类型时,谷歌文档 AI 表现出色,但在处理新格式时灵活性较差。

最适合用于:寻求针对常见文档类型提供现成智能解决方案的企业,特别是在物流、旅行和客户服务等行业。

Azure AI Document Intelligence

微软的 Azure 文档智能(之前的表单识别器)以其定制训练能力脱颖而出。主要优势包括:

  • 能够使用标记和未标记数据(无监督学习)训练模型;
  • 支持表单字段、表格和选择标记;
  • 文档分类、布局 API 和模型版本控制。

Azure 还提供模型生命周期管理集成能力,非常适合围绕文档处理构建 MLOps 管道的内部 DevOps 团队。不过它仍然需要大量的数据准备工作,并且可能对模板变化具有一定的敏感性。

最适合用于:追求灵活性与易用性平衡的组织,例如医疗保健、保险和合规性要求高的行业。

何时采用混合方法以及为什么

完全依赖单一云提供商可能会产生盲点。在现实场景中,大多数企业采用了混合策略,将预训练 API 的高效便捷性与定制化模型的精准度和可控性相结合,并从中受益。

以抵押贷款贷款人为例,他们可能会将 Textract 与自定义训练模型和人工审核环节相结合,用于验证自雇申请人的收入等高风险场景。这种分层式的方法,不仅有助于确保数据的准确性,同时也能有效管理合规风险。







请到「今天看啥」查看全文