发布于: Nov 2, 2022

Amazon Textract 是一种机器学习服务,可从任意文档或图像中自动提取文本、手写内容和数据。我们会根据客户反馈持续改进底层机器学习模型,以提供更高的准确性。今天,我们很高兴宣布通过 AnalyzeDocument API 对我们的文本和表单提取功能进行了质量改进。

Amazon Textract 现在提高了键值对提取的准确性,更具体地说,是提高了纳税申报表和移民表等文件中常见的单字节带框表单的准确性。由于在框中捕获字词很复杂,以往很难从这些文件中提取信息。现在,Textract 能够利用其对这些单字符带框表单的了解,提供更高的键值对提取准确性。

此外,我们很高兴地宣布支持存款支票中常见的 E13B 字体,提高了检测银行文件中的国际银行账号的准确性,以及通过 AnalyzeDocument API 检测长词(例如电子邮件地址)的准确性。不同行业(例如保险、医疗保健和银行业)的客户会在其业务流程中利用这些文件,将在使用 Textract 的 Analyze Document API 时自动发现此更新的优势。

从 10 月 31 日起,此更新已在以下区域推出:美国东部(俄亥俄州、弗吉尼亚州北部)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、亚太地区(孟买、首尔、新加坡、悉尼)、加拿大(中部)、欧洲地区(法兰克福、爱尔兰、伦敦、巴黎)以及 AWS GovCloud(美国东部、美国西部)区域。

要开始使用,请登录到 Amazon Textract 控制台以试用新功能。要了解有关 Textract 功能的更多信息,请访问 Amazon Textract 网站开发人员指南资源页面