Amazon Textract

印刷されたテキスト、手書きの文字、およびデータをすべてのドキュメントから自動的に抽出

月間 1,000 ページまでの分析を 3 か月間無料で提供

設定やトレーニング、カスタムコードなしで、人工知能 (AI) を使ってテキスト、表、フォーム、および高密度のテキストデータを抽出します。

低コストの光学文字認識 (OCR) により、構造を損なうことなく、フォームのラベルや値を識別し、表から情報を抽出します。

情報を暗号化し、PCI、HIPAA、その他のデータを保護するために必要なセキュリティプロセスとコントロールについてのインサイトを得ることができます。

Amazon Augmented AI (Amazon A2I) を使用して人間によるレビューを簡単に実装し、微妙なワークフローや機密性の高いワークフローを管理し、継続的に監査予測を行います。

仕組み

Amazon Textract は、OCR を使用して、PDF などのスキャンしたドキュメントからテキスト、手書き文字、データを自動的に抽出する機械学習 (ML) サービスです。
  • 光学文字認識 (OCR)
  • フォーム抽出
  • テーブル抽出
  • 光学文字認識 (OCR)
  • AWS IoT Core の接続と管理

    Amazon Textract では、光学文字認識 (OCR) 技術を使用して法的文書などのドキュメントのスキャン画像や訳文、または書籍のスキャン画像内の印刷テキスト、手書き文字、および数字を自動的に検出できます。 

    詳細はこちら>>

  • フォーム抽出
  • AWS IoT Core を使用したデバイスの状態の読み取りと設定

    Amazon Textract では、ドキュメント画像内の key-value ペアを自動的に検出できます。そのため、手動による介入なしにドキュメントの元のコンテキストを保持できます。key-value ペアは、関連付けられたデータ項目のセットです。例えば、ドキュメント内の「名」フィールドは key、「Jane」は value になります。この機能により、抽出したデータをデータベースにインポートしたり、アプリケーションに変数として渡したりするのが容易になります。従来の OCR ソリューションでは、key と value は単純なテキストとして抽出され、ハードコード化されたルールを作成して各フォーム用に維持しない限り、key-value 間の関連付けは失われます。

    詳細はこちら>>

  • テーブル抽出
  • AWS IoT Core を使用したデバイスの状態の読み取りと設定

    Amazon Textract では抽出時に、テーブル内に保存されたデータの構成が保持されます。これは、主に構造化されたデータで構成されたドキュメントで役立ちます。例えば、財務報告や医療記録など、一番上の行に列名があり、続く行に個々の入力項目がある表を含むドキュメントが挙げられます。この機能により、事前定義済みスキーマを使用して、抽出されたデータをデータベースに自動的にロードできます。例えば、インベントリレポートの項目番号と数量の行での関連付けが保持されるため、インベントリ管理アプリケーションで項目合計を簡単に増分できます。

    詳細はこちら>>

ユースケース

情報の迅速な抽出


スキャンしたドキュメント、表、フォームから重要なビジネスデータをキャプチャし、数分でアプリケーションを処理します。

ヘルスケアフォームや保険フォームをスキャン

何千ものフォームから情報を抽出し、データを元の文脈に沿って整理し、出力をマニュアルで確認する必要がありません。

フォーム処理の迅速化


政府関連のフォームやアプリケーションから関連データを高い精度で簡単に抽出します。

開始方法

Amazon Textract の仕組みを確認する

OCR、フォーム抽出、表抽出などについてご紹介します。

Amazon Textract の特徴を見る »

AWS 無料利用枠を試す


今日から無料で Amazon Textract を使い始めましょう。

無料のアカウントにサインアップする »

Amazon Textract を調べる


AWS マネジメントコンソールで Amazon Textract を使った構築を始めましょう

コンソールで使用を開始する

AWS の詳細を見る