Amazon Textract

実質的にどのドキュメントからでもテキストやデータを簡単に抽出

Amazon Textract は、電子化したドキュメントからテキストとデータを自動抽出するサービスです。Amazon Textract では、単純な光学文字認識 (OCR) のレベルを超え、フォーム内のフィールドの入力内容や、テーブルに保存された情報も識別されます。

現在、多くの企業ではドキュメントやフォームから、手動入力によりデータを抽出していますが、これには時間もコストもかかります。シンプルな OCR ソフトウェアを使用した場合は、カスタマイズが困難です。多くの場合、各ドキュメントやフォームのルールおよびワークフローはハードコード化して、フォームを変更するたびに更新したり、複数のフォームに対応したりする必要があります。フォームがルールを逸脱すると、出力が混乱し、使用できない場合があります。

Amazon Textract では、機械学習を使用し、実質的にどのような種類のドキュメントでも即座に「読み取って」テキストやデータを正確に抽出できるため、これらの課題を解決できます。手動での作業やカスタムコードは必要ありません。Textract を使用すると、ドキュメントのワークフローを迅速に自動化でき、何百万ページものドキュメントも数時間で処理できます。情報を取得したら、使用しているビジネスアプリケーション内でアクションを実行し、ローンの申し込みや医療請求を処理する次のステップを開始できます。さらに、Smart Search インデックスを作成し、自動承認ワークフローを構築できるほか、改定が必要になる可能性のあるデータにフラグを付けてドキュメントアーカイブルールに対するコンプライアンスを維持しやすくできます。

Amazon Textract の紹介

利点

データを迅速かつ正確に抽出

Amazon Textract では、ドキュメントやフォームから簡単、迅速、正確にデータを抽出できます。Amazon Textract はドキュメントのレイアウトやページの主要な要素を自動的に検出し、埋め込まれているあらゆるフォームやテーブルでのデータリレーションシップを識別し、そのコンテンツを維持したまますべてを抽出します。つまり、複雑なコードを介さなくても、抽出したデータをすぐにアプリケーションで使用したりデータベースに保存したりできます。



コードまたはテンプレートの維持が不要

Amazon Textract の事前トレーニング済みの機械学習モデルは、ほぼすべての業界から、請求書、受領書、契約書、税務書類、販売注文書、登録フォーム、給付金申請書、保険金請求書、ポリシードキュメントやその他多数の何千万ものドキュメントですでにトレーニングされているため、データ抽出用のコードを作成する必要がなくなります。受信するすべてのドキュメントやフォームのコードを維持したり、時とともに変化するページレイアウトについて心配しなくても済むようになります。

ドキュメントの処理コストを削減

Amazon Textract のテキスト抽出 API により、1,000 ページあたり 1.50 USD でドキュメントを処理できます。年間で処理するドキュメントが数百でも数百万でも、Amazon Textract は OCR および構造化されたデータ抽出 (フォームとテーブル) を極めて低いコストで提供します。お支払いいただくのは実際に使用した分のみです。初期費用や長期契約の必要はありません。

ユースケース

Smart Search インデックスを作成する

Amazon Elasticsearch Service を使用し、構造化されたデータをドキュメントから抽出してスマートインデックスを作成すれば、数百万もの財務諸表内をすばやく検索できます。例えば、住宅ローン会社は Amazon Textract を使用してスキャンされた数百万件ものローン申し込みを数時間で処理し、抽出データを Amazon Elasticsearch でインデックス化できます。これにより、「申請者名が John Doe のローン申し込み」や「金利が 2% の契約」などで検索できるようになります。

ドキュメントの自動処理ワークフローを構築する

Amazon Textract ではフォームの自動処理に必要な入力を、人間の手を介さずに実行できます。例えば、銀行はローン申し込みの PDF を読み取るコードを作成できます。お客様が申し込みの結果を即座に確認できるように、ドキュメントに含まれる情報を使用して、ローンの承認に必要なすべての経歴確認や信用調査を行います。手作業による確認や検証が終わるまで何日も待たされることはありません。

ドキュメントアーカイブでコンプライアンスを維持する

Amazon Textract はデータタイプとフォームラベルを自動的に識別するため、情報統制に対するコンプライアンスを簡単に維持できます。例えば、保険会社は Amazon Textract を使用して、請求書フォームをアーカイブする前に、保護が必要で重要なキーと値のペアを自動的に識別し、該当するレビューの個人識別情報 (PII) を自動編集するワークフローをフィードできます。

Product-Page_Standard-Icons_01_Product-Features_SqInk
Amazon Textract 機能を確認する

Amazon Textract がキーと値のペアを検出する方法や表形式データを保存する方法などの詳細についてはこちらをご覧ください。

詳細 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Amazon Textract のプレビューにサインアップ

プレビュー版にサインアップして Amazon Textract で構築を開始しましょう。

サインアップ