Amazon Textract 增加适用于单页 PDF 文档的同步支持以及适用于包含 JPEG 2000 编码图像的 PDF 文档的支持。

发布于: Jan 26, 2022

Amazon Textract 是一项机器学习服务，可以从扫描的文档中自动提取文本、手写字和数据。它不是简单的光学字符识别 (OCR)，而是可以识别、理解和提取表单和表格中的数据。

以前，在调用 Textract 的同步 API -（DetectDocumentText、AnalyzeDocument、AnalyzeExpense 和 AnalyzeID）之前，客户需要将 PDF 文档转换成 PNG 或 JPEG 格式才能从文档中提取文本和数据，例如索赔表单、发票和收据、合同/协议、ID 文档和申请表。即日起，Amazon Textract 删除了预处理步骤，支持在单页 PDF 文档中进行同步操作，从而使客户能够从 PDF 文档中提取文本和数据，而无需将文档从 PDF 转换为 PNG 或 JPEG。

此外，Amazon Textract 现在还支持处理 PDF 文档内的 JPEG 2000 编码图像。现在，您可以提取 PDF 文档内的 JPEG 2000 编码图像中的文本和数据。

要开始使用，请登录 Amazon Textract 控制台以测试您的 PDF 文档。要了解关于 Textract 功能的更多信息，请访问 Amazon Textract 网站、开发人员指南或资源页面。

Amazon Textract 增加适用于单页 PDF 文档的同步支持以及适用于包含 JPEG 2000 编码图像的 PDF 文档的支持。

终止对 Internet Explorer 的支持