发布于: Dec 18, 2019
Amazon Textract 是一项机器学习服务,便于您使用 DetectText 或 AnalyzeDoc API 轻松快速地检索表格和表单之类的文本和结构化数据,而无需任何自定义配置或模板。Amazon Textract 这类托管服务的一大优势在于,随着时间的推移,客户可以享受持续改进带来的好处。今天,我们很高兴地宣布,Amazon Textract 现在已经过 PCI DSS 认证。这表示,您现在可以对需要符合支付卡行业数据安全标准 (PCI DSS) 信息安全标准的所有工作负载使用 Amazon Textract,如持卡者数据 (CHD) 或敏感的身份验证数据 (SAD)。而且,即日起,AWS 还推出了一组质量改进,从而使 Amazon Textract 能更加准确地用于表格和表单功能。
首先,我们的表格模型现在可以更好地处理包含拆分单元格和合并单元格的复杂表格结构,在这些结构中,难以将单元格值与正确的列标头或行标头对齐。接下来,Amazon Textract 进一步改进了识别行和列中具有换行文本(跨多行的文本)的单元格的过程,对于没有明显边界的表格甚至也是如此。Amazon Textract 现在可以更加准确地确定包含跨多行内容的单元格,而不是没有明显边界的新行。最后,Amazon Textract 还改进了表单模型,以获得更准确的键-值对识别结果。这些好处适用于许多类型的文档,但对于表和键-值对位于同一页面中的文档尤其显著。现在,Amazon Textract 可以正确识别表格内嵌入的键-值对。
您可以从此处了解这些更新的详细情况。