什么是 OCR(光学字符识别)?
光学字符识别(OCR)是指将文本图像转换为机器可读文本格式的流程。例如,如果您扫描一个表单或收据,则计算机会将扫描保存为图像文件。您无法使用文本编辑器对图像文件中的文字进行编辑、搜索或计数。但是,您可以使用 OCR 将图像转换为文本文档并将内容存储为文本数据。
为什么 OCR 很重要?
大部分业务工作流都涉及通过印刷媒介获取信息。纸质表单、发票、扫描的法律文档和打印的合同都是业务流程的组成部分。对这些海量文书进行存储和管理耗费了大量的时间和空间。尽管无纸化文档管理是大势所趋,但将文档扫描为图像仍然充满挑战。这一过程需要人工干预,繁琐且缓慢。
除此以外,文档内容的数字化会导致出现隐藏有文字的图像文件。文字处理软件无法像处理文本文档一样处理图像中的文本。OCR 技术通过将文本图像转换为可供其他商业软件分析的文本数据解决该问题。然后,您可以使用数据进行分析、改善运营、自动化流程并提升生产效率。
OCR 有哪些优势?
以下为 OCR 技术的主要优势:
可搜索的文本
企业可以将其现有的和新的文档转换为完全可搜索的知识归档。也可以使用数据分析软件自动处理文本数据库,进行进一步的知识处理。
运营高效
您可以使用 OCR 软件自动集成企业内的文档工作流和数字工作流,进而提高效率。以下是 OCR 软件的一些应用示例:
- 扫描手填表格,用于自动化验证、审核、编辑和分析。这节省了手动文档处理和数据输入所需的时间。
- 通过快速搜索数据库中的字词查找需要的文档,而不必手动寻找文件盒中的文件。
- 将手写备注转换为可编辑的文本和文档。
人工智能解决方案
OCR 通常是企业可能实施的其他人工智能解决方案的组成部分。例如,其在自动驾驶汽车中扫描和读取车牌号和路牌,检测社交媒体文章中的品牌徽标,或者识别广告图像中的产品包装。这些人工智能技术帮助企业做出更好的营销和运营决策,从而降低费用和提升客户体验。
OCR 的历史和演变情况是怎样的?
OCR 领域最早的一些进展之一是 Emanuel Goldberg 在 20 世纪 20 年代所发明的机器,该机器能够读取字符并将其转换为电报代码。这为基于机器的读取理念奠定了基础。
早期采用
20 世纪 50 年代,OCR 技术开始发展成为一种商业化的技术。像 RCA 这样的公司开发出了能够读取特定字体的系统,这些系统适用于银行和邮政领域的应用。这些系统被用于实现支票处理和邮件分拣的自动化——虽然范围较窄,但影响却相当大。
20 世纪 60 年代,OCR-A 和 OCR-B 字体被设计为便于人类和机器阅读。它们的引入使 OCR 在金融和政府部门的应用更加一致。
扩展
扫描仪的改进以及软件算法的优化使得 OCR 技术能够适用于日常商业用途。早期的程序能够扫描打印出来的纸质文档,并将其转换为可编辑的文本,不过其准确性有限。
在 21 世纪初,神经网络和早期的机器学习技术使 OCR 能够超越固定字体和布局的限制。如今的系统能够更准确地识别手写文字、低质量扫描图像以及复杂的排版格式。
现在
如今,OCR 已从一个小众工具发展成为数字化转型中的基础技术。它已经融入了从移动应用程序到企业自动化平台的方方面面之中。它支持多种语言,并以情境感知的方式处理实时图像捕捉。如今,它已成为智能自动化不可或缺的一部分。
文档处理中有哪些不同的 OCR 使用案例?
OCR 是企业文档处理工作流不可或缺的一部分。请考虑以下使用案例。
智能搜索文档存档
OCR 技术能够从基于图像和 PDF 格式的文档中提取文本,从而创建可搜索的数字存档。一旦文本被识别出来,就可以对其编制索引,并在基于人工智能的搜索系统中加以利用。用户可以快速且准确地在庞大的文件库中搜索相关文件,无需进行额外的文档分类操作。例如,如果搜索特定的客户名称,将会返回所有原本以书面形式提交的支付订单、发票和表格。
企业可以将其现有的和新打印的文档转换为完全可搜索的知识归档。也可以使用数据分析软件自动处理文本数据库,进行进一步的知识处理。
自然语言处理
OCR 能够按单词、行或表格单元格的级别识别并提取文本,从而能更好地控制内容在进行诸如文档分类、摘要生成、情感分析、主题建模、实体识别等后续自然语言处理(NLP)任务时的准备方式。例如,摘要生成需要对段落中的文本进行提取,而实体识别则可能更倾向于对键值对形式的文本进行提取,就像 JSON 文件那样。
数据标准化
文档工作流通常会涉及来自不同格式和不同行业的非结构化数据。OCR 能够从各种文档类型(如财务报表、临床记录和技术报告)中提取文本和表格,从而对这些数据进行标准化处理。您将获得更快的处理速度以及更一致的系统间数据处理。
自动处理表单
OCR 技术在实现表单处理自动化方面发挥着关键作用。它能够识别各种表单中的字段,并从这些表单中提取结构化信息,从而使企业能够将这些数据直接导入数据库,而无需人工输入。
应用程序功能
OCR 功能可以直接嵌入到业务应用程序中,这样用户就可以自行进行实时文本提取操作了。这减少了分析工作负载,因为数据在源头就得到了妥善收集。
OCR 在不同行业中是如何应用的?
以下为众多行业的一些常见 OCR 使用案例:
银行
银行业使用 OCR 处理和验证贷款文件、存款支票和其他金融交易的文书。该验证增强了对欺诈的预防,提升了交易安全。例如,BlueVine 是一家向中小企业提供金融服务的金融技术公司。其使用基于云的 OCR 服务 Amazon Textract,为美国小企业开发产品,以便这些企业快速获得属于 COVID-19 纾困刺激方案组成部分的薪资保护计划(PPP)贷款。Amazon Textract 每天自动处理和分析数万份 PPP 表格,以便 BlueVine 帮助数千家企业获得资金,同时挽救了 40 多万个工作岗位。
医护行业
医护行业使用 OCR 处理患者记录,包括治疗、检验、医院记录和保险支付。OCR 帮助改善工作流,减少医院手动工作,同时保持记录及时更新。例如,nib Group 向 100 多万澳大利亚人提供健康和医疗保险,每天都收到数以千计的医疗索赔。客户可以对其医疗发票进行拍照,然后通过 nib 移动应用程序进行提交。Amazon Textract 自动处理这些图像,以便公司可以快速批准索赔。
物流
物流公司使用 OCR 高效跟踪包裹标签、发票、收据和其他文档。例如,Foresight Group 使用 Amazon Textract 自动化 SAP 中的发票处理流程。手动输入这些业务文档不仅耗时,而且容易出错,因为 Foresight 员工必须在多个核算系统中输入数据。借助 Amazon Textract,Foresight 软件可以精确读取许多不同布局中的字符,从而提升业务效率。
OCR 如何工作?
OCR 引擎或 OCR 软件通过以下步骤工作:
图像采集
扫描仪读取文档并将这些文档转换为二进制数据。OCR 软件分析扫描的图像,将淡色区域分类为背景,将深色区域分类为文本。
预处理
OCR 软件首先清理图像并删除错误,以为读取做好准备。以下为其使用的一些清理技术:
- 扫描期间,对扫描文档进行轻微的偏移校正或倾斜,以修复对齐问题。
- 去除杂点、移除数字图像斑点或平滑文本图像边缘。
- 清理图像中的边框和线条。
- 多语言 OCR 技术的脚本识别
文本识别
OCR 软件用于文本识别的 OCR 算法或软件流程的两个主要类型为模式匹配和特征提取。
模式匹配
模式匹配分离字符图像(称为标志符号),并将其与存储的类似标志符号进行对比。模式匹配仅在存储的标志符号具有与输入的标志符号类似的字体和大小时才能发挥作用。对于以已知字体输入的文档的扫描图像,此方法效果很好。
特征提取
特征提取将标志符号分割或分解为线条、闭环、线条方向和线条焦点等特征。然后,其使用这些特征在存储的多种标志符号中查找最佳匹配或最相近的匹配。
后处理
分析后,系统将提取的文本数据转换为机器可读的文本文件。某些 OCR 系统可以创建带注释的 PDF 文件,内含扫描文档的扫描前后版本。
OCR 有哪些类型?
数据科学家根据 OCR 技术的用途和应用将该技术分类为不同的类型。以下是几个示例:
简单光学字符识别软件
简单 OCR 引擎存储许多不同的字体和文本图像模式作为模板。OCR 软件使用模式匹配算法将文本图像与其内部数据库进行逐字符对比。如果系统逐字匹配文本,则称为光学文字识别。此解决方案存在限制,因为字体和手写风格几乎无限多,数据库中无法捕获和存储每个单独类型。
智能字符识别软件
现代 OCR 系统使用智能字符识别 (ICR) 技术,以像人类一样阅读文本。其使用机器学习软件,采用训练机器像人类一样行为的高级方法。机器学习系统,又称神经网络,在多个级别分析文本并反复处理图像。其查找不同的图像属性(例如曲线、线条、交点和环),并结合所有这些不同级别的分析结果获得最终结果。即使 ICR 在处理图像时每次通常只处理一个字符,但速度很快,数秒内即可获得结果。
智能文字识别
智能文字识别系统与 ICR 的工作原理相同,但其处理的是整个文字图像,而不是将图像预处理为字符。
光学标记识别
光学标记识别识别文档中的徽标、水印和其他文本符号。
AWS 如何通过 OCR 提供帮助?
AWS 提供两项服务,从而帮助您在业务中实施 OCR:
Amazon Textract 是一项机器学习(ML)服务,其使用 OCR 从扫描的文档(例如 PDF)中自动提取文本、手写内容和数据。其可以高速读取数以千计种不同的文档,涵盖多种布局和格式。当从文档提取信息时,Amazon Textract 会针对其识别的所有内容返回置信度,以便您在如何使用结果方面做出明智的决定。
Amazon Rekognition 可在数分钟内分析数以百万计的图像和视频,并使用人工智能增强人工目视审核任务。您可以使用 Amazon Rekognition API 从图像和视频中提取文本。您可以从路牌、社交媒体文章和产品包装的图像和视频中提取歪斜和扭曲的文本。
立即创建 AWS 账户开始使用 AWS 上的 OCR。