Amazon Textract

印刷されたテキスト、手書きの文字、およびデータを事実上すべてのドキュメントから簡単に抽出
Amazon Textract は、スキャンしたドキュメントから印刷されたテキスト、手書きの文字、その他のデータを自動抽出する、フルマネージド型の機械学習サービスです。その機能は単純な光学文字認識 (OCR) のレベルにとどまらず、フォームやテーブルのデータも識別、理解したうえで抽出することが可能です。

現在、多くの企業では、テーブルやフォームが含まれる、PDF などのスキャンしたドキュメントからデータを抽出する際、データを手入力したり (これには時間とコストがかかり、誤入力も多発します)、フォームを変更するたびに設定の手動更新が必要となる、単純な OCR ソフトウェアを利用したりしています。
 
このような手動プロセスをなくすために、Textract では機械学習を利用しています。手作業やカスタムコードなしで、あらゆる種類のドキュメントを即座に読み取って処理し、印刷されたテキスト、手書きの文字、フォーム、テーブルなどのデータを高精度に抽出できます。

Textract を使用すると、手作業によるドキュメント関連の作業を迅速に自動化でき、何百万ページものドキュメントも数時間で処理できます。情報を取得したら、使用しているビジネスアプリケーション内でアクションを実行し、ローン申込書、税務書類、登録フォーム、医療請求を処理する次のステップを開始できます。さらに、Smart Search インデックスを作成することや、 Amazon Augmented AI でヒューマンレビューを追加してあいまいさや機密性があるデータを確認することが可能です。

メリット

データ構造を問わない迅速で正確な抽出

Amazon Textract では、人工知能を利用して、人間のようにドキュメントを「読む」ことができます。そのため、印刷されたテキストや手書きの文字だけでなく、テーブルやフォーム、その他の構造化データであっても、設定やトレーニング、コードのカスタマイズをすることなく抽出できます。Amazon Textract はドキュメントのレイアウトやページの主要な要素を自動的に検出し、埋め込まれているあらゆるフォームやテーブルでのデータリレーションシップを識別し、そのコンテンツを維持したまますべてを抽出します。

単純な光学文字認識 (OCR) を超えた機能

Amazon Textract では、フォームのラベルや値を識別したり、テーブルから情報を抽出したりするのに OCR 技術を使用しますが、データの構造が損なわれることはなく、また低コストでご利用いだだけます。使用した分だけ支払えばよく、前払いの義務や長期の契約も不要です。 

セキュリティ & コンプライアンス

Textract は、Service Organization Control (SOC)、International Organization for Standardization (ISO)、PCI、HIPAA、および GDPR に準拠しているため、お客様は、セキュリティプロセスと顧客データを保護する制御について深い洞察を得ることができます。さらに、Textract は、AWS Privatelink および KMS を介して Amazon Virtual Private Cloud (VPC) エンドポイントをサポートしているため、お客様はパブリックインターネットの使用を回避してデータを暗号化できます。

ヒューマンレビューの簡単な実装

Amazon Textract は Amazon Augmented AI (Amazon A2I) と直接統合されているため、ドキュメントから抽出された印刷されたテキストや手書きの文字の人間によるレビューを容易に実装できます。あいまいさや機密性があるために人間による判断を必要とするワークフローに対し、ヒューマンレビューを組み込むことができます。これにより、継続的な予測結果に確信性を付加したり監査を実施したりできます。

Amazon Textract の紹介 (日本語字幕) (3:04)

ユースケース

Smart Search インデックスを作成する

構造化されたデータをドキュメントから抽出してスマートインデックスを作成すると、数百万もの財務諸表をすばやく検索できます。例えば、住宅ローン会社は Amazon Textract を使用してスキャンされた数百万件ものローン申し込みを数時間で処理し、抽出データを Amazon Elasticsearch でインデックス化できます。これにより、「申請者名が John Doe のローン申し込み」や「金利が 2% の契約」などで検索できるようになります。

ドキュメントの自動処理ワークフローを構築する

Amazon Textract ではフォームの自動処理に必要な入力を、人間の手を介さずに実行できます。たとえば、銀行は Amazon Textract を使用してローン申請を自動化できます。お客様が申し込みの結果を即座に確認できるように、ドキュメントに含まれる情報を使用して、ローンの承認に必要なすべての経歴確認や信用調査を行います。手作業による確認や検証が終わるまで何日も待たされることはありません。

ドキュメントアーカイブでコンプライアンスを維持する

Amazon Textract はデータタイプとフォームラベルを自動的に識別するため、情報統制に対するコンプライアンスを簡単に維持できます。たとえば、保険会社は Amazon Textract を使用して、請求書フォームをアーカイブする前に、保護が必要で重要なキーと値のペアを自動的に識別し、該当するレビューの個人識別情報 (PII) を自動編集するワークフローをフィードできます。

お客様の導入事例

machine leanring_kabbage logo

Kabbage は、スモールビジネスにキャッシュフローのためのソリューションを提供している、データとテクノロジーの企業です。そのサービスには、一連のクレジットへの柔軟なアクセス、オンライン決済、キャッシュフローのインサイトとビジネス用小切手の提供などが含まれます。

「当社では、Amazon Textract により、PPP アプリケーションの 80% をサポートしており、貸出業務を完全に自動化しています。さらに、数日間を要していた承認のための時間は、中央値で 4 時間程度にまで短縮しました。この導入プログラムが完了した時点で、当社は、アプリケーションの規模では国内で 2 番目に大きな PPP 資金提供者となり、米国内の主要銀行を上回りました。サービスは 297,000 社を超えるスモールビジネスに提供されており、アメリカ全土で、約 945,000 件の雇用維持に寄与しています。」

データサイエンス部門リーダー、Anthony Sabelli 氏、Kabbage



change-healthcare-600x400

Change Healthcare は業界トップの独立系ヘルスケアテクノロジー企業です。米国の医療システム内において、臨床、財務、患者とのつながりの面などで、より良い成果を得るための、データおよび分析主導のソリューションを提供しています。

「Change Healthcare では財務および管理上の決定の予定表と品質を改善することで、すべての人が金銭的にも、物理的にもヘルスケアを利用できるようにすることができると信じています。これはデータからより多くのことを理解するために、機械学習技術の力を用いることで、実現できます。しかし、この情報の潜在能力を解放するのは困難なことが多々あります。こうした情報は従来の光学文字認識機能では分析できない表やフォームに遮られてしまっているためです。Amazon Textract はテキストに加えて構造化データを取得する機能を使用して、ドキュメントの理解をさらに深め、そして、これからはサービスが HIPAA 準拠となることで、大量のドキュメントに埋もれている情報を解放し、患者、支払人、供給業者にさらなる価値をもたらすことができるようになります」

EVP兼チーフ AI オフィサー、Nick Giannasi 氏 - Change Healthcare


filevine-600x400

Filevineは、クラウドベースのケースと案件管理、ドキュメント管理、詳細なレポート分析など、法律専門家向けの運用コアです。2015 年の創業以来、fILEVINE は急速なイノベーションと受賞歴のあるデザインに焦点を当て、独立したレビューサイトから最高位の評価を得ています。

「数百万の案件やケースのファイルが毎日、Filevine で処理されています。アマゾン ウェブ サービスを選択したのは、お客様のためにクラス最高のドキュメント検索ソリューションを提供したいと考えたためです。Amazon Textract は高速で正確、スケール自在です。このことは、Filevine が世界最大で最も優れた法律組織の要件に合致するために役立ちます。Filevine と Amazon により、干し草の山の中に針を刺すということわざのように検索することは、法律の専門家にとってかつてないほど容易になりました。」

最高経営責任者、Ryan Anderson 氏、Filevine


Product-Page_Standard-Icons_01_Product-Features_SqInk
Amazon Textract の機能を確認する

Amazon Textract の機能に関する詳細についてさらに説明します。

詳細 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
Product-Page_Standard-Icons_03_Start-Building_SqInk
コンソールで構築を開始する

AWS マネジメントコンソールで Amazon Textract を使った構築を始めましょう。

サインアップ