Amazon Textract

実質的にどのドキュメントからでもテキストやデータを簡単に抽出
Amazon Textract は、スキャンしたドキュメントからテキストとデータを自動抽出する、フルマネージド型の機械学習サービスです。その機能は単純な光学文字認識 (OCR) のレベルにとどまらず、フォームやテーブルのデータも識別、理解したうえで抽出することが可能です。

現在、多くの企業では、テーブルやフォームが含まれる、PDF などのスキャンしたドキュメントからデータを抽出する際、データを手入力したり (これには時間とコストがかかり、誤入力も多発します)、フォームを変更するたびに設定の手動更新が必要となる、単純な OCR ソフトウェアを利用したりしています。
 
このような手動プロセスをなくすために、Textract では機械学習を利用しています。手作業やカスタムコードなしで、あらゆる種類のドキュメントを即座に読み取って処理し、テキスト、フォーム、テーブルなどのデータを高精度に抽出できます。

Textract を使用すると、手作業によるドキュメント関連の作業を迅速に自動化でき、何百万ページものドキュメントも数時間で処理できます。情報を取得したら、使用しているビジネスアプリケーション内でアクションを実行し、ローン申込書、税務書類、登録フォーム、医療請求を処理する次のステップを開始できます。さらに、Smart Search インデックスを作成することや、 Amazon Augmented AI でヒューマンレビューを追加してあいまいさや機密性があるデータを確認することが可能です。

メリット

データ構造を問わない迅速で正確な抽出

Amazon Textract では、人工知能を利用して、人間のようにドキュメントを「読む」ことができます。そのため、テキストだけでなく、テーブルやフォーム、その他の構造化データであっても、設定やトレーニング、コードのカスタマイズをすることなく抽出できます。Amazon Textract はドキュメントのレイアウトやページの主要な要素を自動的に検出し、埋め込まれているあらゆるフォームやテーブルでのデータリレーションシップを識別し、そのコンテンツを維持したまますべてを抽出します。

単純な光学文字認識 (OCR) を超えた機能

Amazon Textract では、フォームのラベルや値を識別したり、テーブルから情報を抽出したりするのに OCR 技術を使用しますが、データの構造が損なわれることはなく、また低コストでご利用いだだけます。使用した分だけ支払えばよく、前払いの義務や長期の契約も不要です。 

セキュリティ & コンプライアンス

Textract は、Service Organization Control (SOC) コンプライアンス、国際標準化機構 (ISO) コンプライアンス、PCI、HIPAA、GPDR に準拠したワークロードで使用できます。金融、ヘルスケア、その他の業種のお客様は、顧客データを保護するセキュリティプロセスおよびコントロールについて把握できます。Textract は、AWS PrivateLink 経由で Amazon Virtual Private Cloud (Amazon VPC) エンドポイントも提供しているので、お客様は VPC 内から Amazon Textract への API 呼び出しを安全に開始でき、パブリックインターネットの使用を回避できます。

ヒューマンレビューの簡単な実装

Amazon Textract は Amazon Augmented AI (Amazon A2I) と直接統合されているため、ドキュメントから抽出されたテキストの人間によるレビューを容易に実装できます。あいまいさや機密性があるために人間による判断を必要とするワークフローに対し、ヒューマンレビューを組み込むことができます。これにより、継続的な予測結果に確信性を付加したり監査を実施したりできます。

Amazon Textract の紹介 (日本語字幕) (3:04)

ユースケース

Smart Search インデックスを作成する

構造化されたデータをドキュメントから抽出してスマートインデックスを作成すると、数百万もの財務諸表をすばやく検索できます。例えば、住宅ローン会社は Amazon Textract を使用してスキャンされた数百万件ものローン申し込みを数時間で処理し、抽出データを Amazon Elasticsearch でインデックス化できます。これにより、「申請者名が John Doe のローン申し込み」や「金利が 2% の契約」などで検索できるようになります。

ドキュメントの自動処理ワークフローを構築する

Amazon Textract ではフォームの自動処理に必要な入力を、人間の手を介さずに実行できます。たとえば、銀行は Amazon Textract を使用してローン申請を自動化できます。お客様が申し込みの結果を即座に確認できるように、ドキュメントに含まれる情報を使用して、ローンの承認に必要なすべての経歴確認や信用調査を行います。手作業による確認や検証が終わるまで何日も待たされることはありません。

ドキュメントアーカイブでコンプライアンスを維持する

Amazon Textract はデータタイプとフォームラベルを自動的に識別するため、情報統制に対するコンプライアンスを簡単に維持できます。たとえば、保険会社は Amazon Textract を使用して、請求書フォームをアーカイブする前に、保護が必要で重要なキーと値のペアを自動的に識別し、該当するレビューの個人識別情報 (PII) を自動編集するワークフローをフィードできます。

お客様の導入事例

change-healthcare-600x400

Change Healthcare は業界トップの独立系ヘルスケアテクノロジー企業で、米国ヘルスケアシステムにおいて、臨床、金融、患者などの連携の成果を改善するために、データおよび分析主導のソリューションを提供しています。

「Change Healthcare では財務および管理上の決定の予定表と品質を改善することで、すべての人が金銭的にも、物理的にもヘルスケアを利用できるようにすることができると信じています。これはデータからより多くのことを理解するために、機械学習技術の力を用いることで、実現できます。しかし、この情報の潜在能力を解放するのは困難なことが多々あります。こうした情報は従来の光学文字認識機能では分析できない表やフォームに遮られてしまっているためです。Amazon Textract はテキストに加えて構造化データを取得する機能を使用して、ドキュメントの理解をさらに深め、そして、これからはサービスが HIPAA 準拠となることで、大量のドキュメントに埋もれている情報を解放し、患者、支払人、供給業者にさらなる価値をもたらすことができるようになります」

EVP兼チーフ AI オフィサー、Nick Giannasi 氏 - Change Healthcare


filevine-600x400

Filevineは、クラウドベースのケースと案件管理、ドキュメント管理、詳細なレポート分析など、法律専門家向けの運用コアです。2015 年の創業以来、fILEVINE は急速なイノベーションと受賞歴のあるデザインに焦点を当て、独立したレビューサイトから最高位の評価を得ています。

「数百万の案件やケースのファイルが毎日、Filevine で処理されています。アマゾン ウェブ サービスを選択したのは、お客様のためにクラス最高のドキュメント検索ソリューションを提供したいと考えたためです。Amazon Textract は高速で正確、スケール自在です。このことは、Filevine が世界最大で最も優れた法律組織の要件に合致するために役立ちます。Filevine と Amazon により、干し草の山の中に針を刺すということわざのように検索することは、法律の専門家にとってかつてないほど容易になりました。」

最高経営責任者、Ryan Anderson 氏 - Filevine


CD_2018_Primary_Logo_w_TM

ClearDATA が提供するソリューションおよびサービスのイノベーティブなプラットフォームは、データのプライバシーにまつわるリスクからお客様を保護し、データ管理を改善します。さらに、ヘルスケアの IT インフラを拡張して、毎日のヘルスケアの提供を改善することで、業界全体がヘルスケアの改善に力を注ぐことができるようにします。

「機械学習によって強化された光学文字認識サービス、Textract を AWS が HIPAA 適格サービスに追加するのが大変楽しみです。支払人と供給業者との間で共有されている大量の医療データは、PDF のような画像ベースのファイルに埋め込まれています。この種のデータを手作業で処理する代わりに、今後、ヘルスケア組織はこれまで機械では判読不能だったファイルから、Amazon Textract サービスを使用することにより、医療データを抽出できるようになります。このサービスのおかげで、この種のデータを電子的なカルテにまとめたり、データセット上で保護された健康情報を特定できる Amazon Comprehend Medical といった他のクラウド技術と統合できる機会が生まれます。これはデータへのアクセスを改善し、データからより詳しい情報を取り出し、コストを削減し、患者と関係者の体験を改善するために、こうした新進の技術を活用する機会を増やすための一歩に過ぎません」

ClearDATA のチーフテクロノロジーオフィサー、Matt Ferrari 氏

Product-Page_Standard-Icons_01_Product-Features_SqInk
Amazon Textract の機能を確認する

Amazon Textract の機能に関する詳細についてさらに説明します。

詳細 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
Product-Page_Standard-Icons_03_Start-Building_SqInk
コンソールで構築を開始する

AWS マネジメントコンソールで Amazon Textract を使った構築を始めましょう。

サインアップ