发布于: Sep 28, 2023

Amazon Textract 是一种机器学习服务,可从任意文档或图像中自动提取打印的文本、手写内容和数据。今天,我们很高兴地宣布推出布局功能,这是一项新的 Amazon Textract 功能,借助该功能,客户可以从文档中提取段落、标题、列表、页眉、页脚等布局元素。布局将成为 Analyze Document API 中的一种新功能类型。客户可以将布局用作一项独立的功能,也可以将其与其他 Analyze Document 功能类型结合使用。

布局功能已针对金融服务、法律、保险、医疗、媒体和其他行业的各种文档进行了预先训练。借助布局功能,客户将能够直接从文档中提取布局元素,从而减少了对开发和维护复杂后处理代码的依赖。反过来,我们也希望布局功能可以提高文档处理操作(例如,创建搜索索引、检索增强生成 (RAG) 应用程序的嵌入等)的效率。

从 9 月 29 日起,此功能已在以下区域推出:美国东部(俄亥俄州、弗吉尼亚州北部)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、亚太地区(孟买、首尔、新加坡、悉尼)、加拿大(中部)、欧洲地区(法兰克福、爱尔兰、伦敦、巴黎)以及 AWS GovCloud(美国东部、美国西部)。

要开始使用,请登录到 Amazon Textract 控制台以试用新功能。要了解有关 Textract 功能的更多信息,请访问 Amazon Textract 网站开发人员指南资源页面