投稿日: May 29, 2019

re:invent 2018 以来プレビューされていた Amazon Textract が一般公開されたことをお知らせします。Amazon Textract は、事実上すべてのドキュメントからテキストと構造化データを自動的に抽出する、マネージド型機械学習サービスです。Amazon Textract を使用すると、ドキュメントワークフローをすばやく自動化でき、数百万ページのドキュメントでも数時間で処理できます。

Amazon Textract では、単純な光学文字認識 (OCR) のレベルを超え、フォーム内のフィールドの入力内容や、テーブルに保存された情報、その情報が表示されるコンテキストが識別されます。Amazon Textract の API はスキャン、PDF、写真などの複数の画像形式をサポートしており、お客様はそれを Amazon Comprehend、Amazon Comprehend Medical、Amazon Translate などの他の AWS の機械学習サービスと一緒に使用することにより、抽出したテキストとデータからより意味のある情報を引き出すことができます。抽出されたテキストとデータは、ドキュメントの大規模なアーカイブでスマート検索を構築するために使用したり、会計、監査、コンプライアンスソフトウェアなどのアプリケーションで使用するためにデータベースにロードしたりできます。Amazon Textract の詳細については、Amazon Textract のウェブサイトをご覧ください。

Amazon Textract は現在、北バージニア、オハイオ、オレゴン、アイルランドの各 AWS リージョンで利用可能です。Amazon Textract の使用を開始するには、入門ガイドをお読みください。