发布于: Sep 24, 2020
Amazon Textract 是一种机器学习服务,使客户能够自动提取文本和数据,包括从扫描文档和图像中的表格及表单中提取文本和数据。作为一项完全托管的服务,Textract 随着时间的推移不断改进。今天,我们很高兴地宣布我们将增强光学字符识别 (OCR) 功能和表格识别功能。新的 OCR 模型能够比以往更精确地检测度数符号 (°) 和货币符号,如人民币 (CNY ¥)、日元 (JPY ¥)、印度卢比 (₹)、英镑 (£) 和美元 ($)。
最新的表单模型具有更高的准确性,可用于检测各种表格,特别是“收入审核”文件,如工资存根、银行报表和税务文件。通过这些改进,您现在可以利用 Amazon Textract 更准确地检测有关金额、温度读数、复选框中选定/未选定信息以及包含表单元素的文档中键值对的上下文信息。
OCR 功能更新已于今天在亚太地区(新加坡)推出,并将于未来几天内在所有其他适用于提供 Amazon Textract 的所有 AWS 区域中推出。最新的表单模型今天已在适用于提供 Amazon Textract 的所有 AWS 区域推出。
立即开始使用 Amazon Textract。