发布于: Jan 26, 2022

Amazon Textract 是一项机器学习服务,可以从扫描的文档中自动提取文本、手写字和数据。它不是简单的光学字符识别 (OCR),而是可以识别、理解和提取表单和表格中的数据。

以前,在调用 Textract 的同步 API -(DetectDocumentTextAnalyzeDocumentAnalyzeExpense 和 AnalyzeID)之前,客户需要将 PDF 文档转换成 PNG 或 JPEG 格式才能从文档中提取文本和数据,例如索赔表单、发票和收据、合同/协议、ID 文档和申请表。即日起,Amazon Textract 删除了预处理步骤,支持在单页 PDF 文档中进行同步操作,从而使客户能够从 PDF 文档中提取文本和数据,而无需将文档从 PDF 转换为 PNG 或 JPEG。

此外,Amazon Textract 现在还支持处理 PDF 文档内的 JPEG 2000 编码图像。现在,您可以提取 PDF 文档内的 JPEG 2000 编码图像中的文本和数据。

要开始使用,请登录 Amazon Textract 控制台以测试您的 PDF 文档。要了解关于 Textract 功能的更多信息,请访问 Amazon Textract 网站开发人员指南资源页面