亚马逊AWS官方博客

新功能 – 使用适用于 IDP 的 Amazon Comprehend 处理 PDF、Word 文档和图像

今天,我们宣布推出一项适用于智能文档处理(IDP)的全新 Amazon Comprehend 功能。借助此功能,您可以直接通过 Amazon Comprehend 对 PDF 文档、Microsoft Word 文件和图像中的实体进行分类和提取,而无需先提取文本。

许多客户需要处理半结构化格式的文档,例如,扫描的收据图像或 PDF 格式的税务报表。直到目前,这些客户首先需要使用光学字符识别(OCR)工具对这些文档进行预处理,以提取文本。然后,他们可以使用 Amazon Comprehend 对这些预处理文件中的实体进行分类和提取。

现在,借助适用于 IDP 的 Amazon Comprehend,客户只需进行一次 API 调用即可处理半结构化文档(例如 PDF、docx、PNG、JPG 或 TIFF 图像),以及纯文本文档。这项新功能结合了 OCR 和 Amazon Comprehend 的现有自然语言处理(NLP)功能,可对文档中的实体进行分类和提取。通过自定义文档分类 API,可以按多种类别来整理文档;通过自定义命名的实体识别 API,可以提取文档中的实体,例如产品代码或特定于业务的实体。例如,保险公司现在可以用更少的 API 调用处理经过扫描的客户理赔单据。使用 Amazon Comprehend 实体识别 API,他们可以提取理赔单据中的客户编号,然后使用自定义分类器 API 将理赔分为不同的保险类别,如房屋保险、汽车保险或人身保险。

从今天开始,适用于 IDP 的 Amazon Comprehend API 可用于文件的实时推理,以及大型文档集的异步批处理。此功能可简化文档处理管道并减少开发工作。

入门
您可以通过 AWS 管理控制台AWS 软件开发工具包AWS 命令行界面(CLI)使用适用于 IDP 的 Amazon Comprehend。

在此演示中,您将看到如何使用自定义分类器异步处理半结构化文件。在提取实体方面,步骤有所不同,您可以查看相关文档,了解具体操作步骤

要使用分类器处理文件,首先需要训练自定义分类器。您可以按照 Amazon Comprehend 开发人员指南中的步骤进行操作。您需要用纯文本数据训练该分类器。

训练自定义分类器后,可以使用异步或同步操作对文档进行分类。要使用同步操作分析单个文档,需要创建一个端点以使用自定义模型运行实时分析。您可以在文档中找到有关实时分析的更多信息。在此演示中,您将使用异步操作,将要分类的文档放入 Amazon Simple Storage Service(Amazon S3)存储桶中,然后运行分析批处理作业。

要开始从控制台对文档进行批量分类,请在 Amazon Comprehend 页面上,转到 Analysis jobs(分析作业),然后转到 Create job(创建作业)。

创建新作业

然后,您可以配置新的分析作业。首先,输入名称,并选择 Custom classification(自定义分类)和您之前创建的自定义分类器。

然后,您可以配置输入数据。首先,选择用于存储这些数据的 S3 位置。在该位置,可以放置 PDF、图像和 Word 文档。由于您要处理的是半结构化文档,因此需要选择 One document per file(每种文件一个文档)。如果要覆盖 Amazon Comprehend 的文档提取和解析设置,可以配置 Advanced document input(高级文档输入)选项。

分析作业的输入数据

配置输入数据后,您可以选择此分析的输出应存储在哪个位置。此外,还需要为该分析作业授予访问权限,以便在指定的 Amazon S3 位置进行读取和写入,之后就可以创建作业了。

配置分类作业

作业需要几分钟才能执行完毕,具体取决于输入的大小。作业准备就绪后,您可以检查输出结果。您可以在创建作业时指定的 Amazon S3 位置找到结果。

在结果文件夹中,您将发现 Amazon Comprehend 分类的每个半结构化文件都有一个 .out 文件。.out 文件是一个 JSON 文件,其中每一行表示文档的一页。在 amazon-textract-output 目录中,您将发现每个分类文件都有一个文件夹,在该文件夹中,原始文件的每一页都对应一个文件。这些页文件包含分类结果。要了解有关分类输出的更多信息,请查看文档页面

作业输出

现已推出
现在,您可以在推出 Amazon Comprehend 的所有区域中,开始通过 Amazon Comprehend 异步和同步地对半结构化文件(如 PDF、图像和 Word 文档)中的实体进行分类提取。要了解有关此次新发布的更多信息,请参阅 Amazon Comprehend 开发人员指南

Marcia