Amazon Textract

実質的にどのドキュメントからでもテキストやデータを簡単に抽出
Amazon Textract は、電子化したドキュメントからテキストとデータを自動抽出するサービスです。Amazon Textract では、単純な光学文字認識 (OCR) のレベルを超え、フォーム内のフィールドの入力内容や、テーブルに保存された情報も識別されます。

現在、多くの企業ではドキュメントやフォームから手動入力によりデータを抽出していますが、これには時間もコストもかかります。シンプルな光学文字認識 (OCR) ソフトウェアには、手動でのカスタマイズまたは設定が必要です。多くの場合、各ドキュメントやフォームのルールおよびワークフローはハードコード化して、フォームを変更するたびに更新したり、複数のフォームに対応したりする必要があります。フォームがルールを逸脱すると、出力が混乱し、使用できない場合があります。

Amazon Textract では、機械学習を使用し、実質的にどのような種類のドキュメントでも即座に「読み取って」テキストやデータを正確に抽出できるため、これらの課題を解決できます。手動での作業やカスタムコードは必要ありません。Textract を使用すると、ドキュメントのワークフローを迅速に自動化でき、何百万ページものドキュメントも数時間で処理できます。情報を取得したら、使用しているビジネスアプリケーション内でアクションを実行し、ローンの申し込みや医療請求を処理する次のステップを開始できます。さらに、Smart Search インデックスを作成し、自動承認ワークフローを構築できるほか、改定が必要になる可能性のあるデータにフラグを付けてドキュメントアーカイブルールに対するコンプライアンスを維持しやすくできます。

Amazon Textract の紹介 (3:04)

利点

データを迅速かつ正確に抽出

Amazon Textract では、ドキュメント、フォーム、テーブルから簡単、迅速、正確にデータを抽出できます。Amazon Textract はドキュメントのレイアウトやページの主要な要素を自動的に検出し、埋め込まれているあらゆるフォームやテーブルでのデータリレーションシップを識別し、そのコンテンツを維持したまますべてを抽出します。つまり、複雑なコードを介さなくても、抽出したデータをすぐにアプリケーションで使用したりデータベースに保存したりできます。



コードまたはテンプレートの維持が不要

Amazon Textract の事前トレーニング済みの機械学習モデルは、ほぼすべての業界の契約書、税務書類、販売注文書、登録フォーム、給付金申請書、保険金請求書、ポリシードキュメントやその他多数の何千万ものドキュメントですでにトレーニングされているため、データ抽出用のコードを作成する必要がなくなります。受信するすべてのドキュメントやフォームのコードを維持したり、時とともに変化するページレイアウトについて心配しなくても済むようになります。

ドキュメントの処理コストを削減

Amazon Textract は、OCR および構造化されたデータ抽出 (フォームとテーブル) を極めて低いコストで提供します。お支払いいただくのは実際に使用した分のみです。初期費用や長期契約の必要はありません。Amazon Textract のテキスト抽出 API を使用すると、何百万もの文書を簡単に処理できます。

ユースケース

Smart Search インデックスを作成する

構造化されたデータをドキュメントから抽出してスマートインデックスを作成すると、数百万もの財務諸表をすばやく検索できます。例えば、住宅ローン会社は Amazon Textract を使用してスキャンされた数百万件ものローン申し込みを数時間で処理し、抽出データを Amazon Elasticsearch でインデックス化できます。これにより、「申請者名が John Doe のローン申し込み」や「金利が 2% の契約」などで検索できるようになります。

ドキュメントの自動処理ワークフローを構築する

Amazon Textract ではフォームの自動処理に必要な入力を、人間の手を介さずに実行できます。たとえば、銀行は Amazon Textract を使用してローン申請を自動化できます。お客様が申し込みの結果を即座に確認できるように、ドキュメントに含まれる情報を使用して、ローンの承認に必要なすべての経歴確認や信用調査を行います。手作業による確認や検証が終わるまで何日も待たされることはありません。

ドキュメントアーカイブでコンプライアンスを維持する

Amazon Textract はデータタイプとフォームラベルを自動的に識別するため、情報統制に対するコンプライアンスを簡単に維持できます。たとえば、保険会社は Amazon Textract を使用して、請求書フォームをアーカイブする前に、保護が必要で重要なキーと値のペアを自動的に識別し、該当するレビューの個人識別情報 (PII) を自動編集するワークフローをフィードできます。

お客様の導入事例

Cox Auto_logo
「Cox Automotive では、世界の自動車の購入、販売、所有、使用方法を変革しようとしています。当社の自動車ソリューションをさらに近代化するために、Amazon Textract を活用して自動車のトランザクション処理速度を加速させる計画をしています。Amazon Textract では、ローンの申し込みや車の所有権などの文書やフォームからデータを自動的に取得して検証できるため、意思決定をより迅速に行うことができます。これにより、顧客の労力が減り、製造業者から購入者までの関係者全員のプロセスがさらに合理化されます。」

Bryan Landerman 氏、最高技術責任者 – Cox Automotive


Healthfirst

Healthfirst は管理型医療の非営利団体で、ニューヨークで急成長を遂げているヘルスプランの1つです。140 万人以上の多様なメンバーと、35,000 人以上のプロバイダー、さらに 4,500 人の従業員のネットワークを有しています。

「Healthfirst では、スキャンされたカルテを有用な臨床情報に変換して、ケアの調整を改善し、質の高い結果を導き、保証対象のメンバーに適切な払い戻しを保証するためのデータパイプラインを構築しています。Amazon Textract と Amazon Comprehend Medical を使用し、効率的な方法で非構造化データソースから本当に価値のあるものを収集することにより、通常のダウンストリームオペレーションと比較すると 10〜20 倍もの節約を実現しています。50,000 以上の図表を分析できるようにスケールアップすることによって、文書化されていない診断を見つけ、必要とするケア管理に適した約 5,000 人のメンバーを紹介することができます。」

Steve Prewitt 氏、最高分析責任者 – Healthfirst


met-office-logo

イギリス気象庁は英国の全国的な天気サービスを提供しており、天気と気候サービスにおける世界的なリーダーです。

「Textract を使用して、文書アーカイブから何百万もの過去の天気予報をデジタル化したいと考えています。これらの観察結果を科学で利用することによって、気候変動と変化についてのよりよい理解につながると信じています。」

Philip Brohan 氏、気象科学者 – イギリス気象庁


the-globe-and-mail-logo

The Globe and Mail は、国の象徴であり、カナダで最も有名なメディアブランドです。

「ニュースメディア企業として、私たちは多くの PDF、あるいは FOI (情報リクエストの自由) などのスキャンされたソースドキュメントに依存しています。これには、以前はアクセスすることができなかったテーブルに含まれた重要な情報が含まれています。これらのドキュメントは、ジャーナリストがそれらに容易にアクセスできない、またはそれらが存在していることを知らなかったため、活用されていませんでした。Amazon Textract を使用することによって、PDF 内のテーブルから情報を抽出し、そのデータを CSV に簡単に出力することができるので、ジャーナリストは、検索クエリからこれらのドキュメントに簡単にアクセスできるようになりました。これにより、ジャーナリストは、情報に 10 倍効率的にアクセスできるようになりました。」

Michael O’Neill 氏、業務執行取締役、デジタルおよびデータサイエンス – The Globe and Mail


Roche
「ロシュの NAVIFY 意思決定支援ポートフォリオは、研究を加速し、個人に特化したヘルスケアを可能にするソリューションを提供します。病院システムでは毎日ペタバイト規模の PDF 形式の医療ドキュメントが生成されるため、当社は、標準化されたフォーマットのないドキュメントを処理するためのドキュメント抽出サービスを必要としていました。Amazon Textract は医療ドキュメントからテキストを抽出する機能を提供してくれるため、抽出後に自然言語処理 (NLP) を適用することで、患者を包括的かつ縦断的に表示し、意思決定支援と人口分析の両方が可能となりました。」

Ram Balasubramanian 氏、ソフトウェアエンジニアリングディレクター – Roche Diagnostics Information Solutions

Product-Page_Standard-Icons_01_Product-Features_SqInk
Amazon Textract の機能を確認する

Amazon Textract の機能に関する詳細についてさらに説明します。

詳細 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
Product-Page_Standard-Icons_03_Start-Building_SqInk
コンソールで構築を開始する

AWS マネジメントコンソールで Amazon Textract を使った構築を始めましょう。

サインアップ