全般

Q: Amazon Textract とは何ですか?

A: Amazon Textract はドキュメント分析サービスであり、画像やドキュメントのスキャンから、テキスト、関心のあるフィールドやその値などの構造化されたデータ、およびテーブルを検出して抽出します。Amazon Textract の機械学習モデルは何百万ものドキュメントでトレーニングされているため、アップロードするドキュメントタイプは事実上すべて自動的に認識され、テキスト抽出のために処理されます。このサービスでは、ドキュメントから情報を抽出する際に、識別する要素ごとの信頼スコアが返されます。そのため、抽出結果をどのように使用するかについて十分な情報に基づく判断が下せます。例えば、税務書類から情報を抽出している場合、抽出された情報の信頼スコアが 95% 未満であればフラグを立てるカスタムルールを設定することができます。また、抽出されたすべてのデータが、境界ボックスの座標、つまり識別されたデータの各要素を完全に囲む四角いフレームと共に返されるため、ドキュメントで単語や数字が表示される場所をすばやく識別できます。これらの機能には、AWS マネジメントコンソールで、または AWS コマンドラインインターフェイス (CLI) を使用して、Amazon Textract API でアクセスできます。

Q: Amazon Textract の最も一般的なユースケースは何ですか?

A: Amazon Textract の最も一般的なユースケースは次のとおりです。

  • ドキュメントやフォームをビジネスアプリケーションにインポートする
  • Smart Search インデックスを作成する 
  • ドキュメントの自動処理ワークフローを構築する
  • ドキュメントアーカイブでコンプライアンスを維持する
  • 自然言語処理 (NLP) のためにテキストを抽出する
  • ドキュメントの分類のためのテキスト抽出

Q: Amazon Textract で検出して抽出できるのは、どのタイプのテキストですか?

A: Amazon Textract は、標準的な英語のアルファベットと ASCII 記号からラテン文字を検出できます。

Q: Amazon Textract ではどのようなドキュメント形式がサポートされていますか?

A: Amazon Textract は、現時点では PNG、JPEG、および PDF 形式をサポートしています。同期 API では、S3 オブジェクトまたはバイト配列として画像を送信できます。非同期 API では、S3 オブジェクトを送信できます。

Q: Amazon Textract の使用を開始するにはどうすればよいですか?

A: Amazon Textract の使用を開始するには、Amazon Textract ページの [Amazon Textract の使用を開始する] ボタンをクリックしてください。これにはアマゾン ウェブ サービスのアカウントが必要です。まだお持ちでない場合は、プロセス中の画面の指示に従って作成してください。AWS アカウントにサインインしたら、Amazon Textract マネージメントコンソールを使用して、独自の画像または PDF ドキュメントで Amazon Textract を試してみてください。Amazon Textract SDK をダウンロードして、独自のアプリケーションを作成することもできます。詳細については、入門ガイドの手順を参照してください。

Q: Amazon Textract ではどのような API が提供されていますか?

A: Amazon Textract は、スキャンしたドキュメントの画像からテキストを検出して抽出したり、テーブルのような構造化されたデータを抽出したり、抽出されたテキストでキーと値の組み合わせを行ったりする API を提供します。Amazon Textract は Detect Document Text API を使用して OCR を実行しますが、ドキュメントの分析プロセスではさらに一歩進んで、テキスト抽出が意図した構造で整理されたままになるようにキーと値のペアの検出も行います。Analyze Document API では、ドキュメント内のテキスト、フィールド、値、それらの関係、テーブル、およびその他のエンティティを、関連する信頼性スコアと共に検出できます。Analyze Document API を使用すると、開発者は自動的に、税務書類、財務報告書、診療記録、ローンの申し込みなどのさまざまなドキュメントから、構造化されたデータを取得できます。詳細については、Amazon Textract の API リファレンスを参照してください。

Q: Amazon Textract が提供する信頼性スコアはどのように使用しますか?

A: 信頼スコアは 0 から 100 までの数字で、特定の予測がどの程度正確であるかを示します。Amazon Textract では、抽出されたすべてのテキストと構造化されたデータが、境界ボックスの座標、つまり識別されたデータの各要素を完全に囲む四角いフレームと共に返されます。これにより、抽出されたエンティティごとのスコアを識別できるため、抽出結果をどのように使用するかについて十分な情報に基づく判断が下せます。

Q: どうすれば Amazon Textract から最良の結果を得ることができますか?

A: Amazon Textract は、テキストと構造化情報を抽出するために、機械学習を使用して事実上あらゆるタイプの文書を読み取ります。最良の結果を得るために、次のヒントに留意してください。

• ドキュメントが Amazon Textract でサポートされている言語を使用していることを確認してください (現在は英語)。
• できるだけ高画質、できれば 150 DPI 以上の画像を提供してください。
• ドキュメントがすでに Amazon Textract がサポートするファイル形式 (PDF、JPG、PNG) のいずれかである場合、Amazon Textract にアップロードする前に変換や低解像度処理をしないでください。
• Amazon Textract のテーブル機能は、ドキュメント内のテーブルがページ上の周囲の要素から視覚的に分離され (例: 画像や複雑なパターンの上に重ならない)、テーブル内のテキストが適切である場合 (例: ページ上のほかのテキストに対して相対的に回転しない) に最も効果的に機能します。
 
Amazon Textract マネジメントコンソールで数回クリックするだけで、Amazon Textract を使用して自分のドキュメントの分析を開始できます。受領書、ID、または工業用ダイアグラムで高精度が実現されない場合、 amazon-textract@amazon.com にお問い合わせください。

Q: Amazon Textract はどの AWS リージョンで使用できますか?

A: Amazon Textract は現在、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、欧州 (アイルランド) で利用可能です。

Q: Amazon Textract は AWS CloudTrail と連携していますか?

A: はい。Amazon Textract は、CloudTrail イベントとして、DetectDocumentText、AnalyzeDocument、StartDocumentTextDetection、StartDocumentAnalysis、GetDocumentTextDetection、および GetDocumentAnalysis のアクションのロギングをサポートしています。詳細については、Logging Amazon Textract API Calls with AWS CloudTrail を参照してください。

請求

Q: Amazon Textract では、処理された画像の数はどのように計算されますか?

A: 画像 (PNG または JPEG) 1 つが単一のページとして計算されます。PDF の場合、ドキュメントの各ページは処理されたページとして計算されます。

Q: Amazon Textract ではどの API に対して課金されますか?

A: 料金の詳細については、Amazon Textract の料金ページを参照してください。

Q: Amazon Textract のコストはどれくらいですか?

A: Amazon Textract では、処理されたページと画像の数に基づいて課金されます。詳細については、料金ページをご覧ください。

Q: Amazon Textract は AWS の無料利用枠で利用できますか?

A: はい。Amazon Textract は AWS 無料利用枠に含まれており、無料で使用開始できます。新しいお客様は最初の 3 か月間、Detect Document Text API を使用して月に 1,000 ページ、Analyze Document API を使用して月に 100 ページまで分析できます。

Q: 料金は税込み価格ですか?

A: 税金の詳細については、アマゾン ウェブ サービス税務ヘルプを参照してください。

データプライバシー

Q: Amazon Textract で処理されたドキュメントと画像の入力は保存されていますか? それらは AWS でどのように使用されていますか?

A: Amazon Textract では、サービスの提供と保守、ならびに Amazon Textract やその他の Amazon 機械学習/人口知能技術の開発と品質向上のためにのみ、サービスで処理されたドキュメントと画像の入力を保存して使用することがあります。お客様のコンテンツを使用することは、関連テクノロジーの開発やトレーニングなど、Amazon Textract のサービスを継続的に改善するために必要です。AWS では、お客様のコンテンツに含まれる個人情報を使用して、お客様やお客様のエンドユーザーを製品、サービス、またはマーケティングのターゲットにすることはありません。AWS の最優先事項は、お客様からの信頼、プライバシー、およびお客様のコンテンツのセキュリティです。また、AWS では、転送中や保管時の暗号化など、お客様のコンテンツへの不正アクセスやお客様のコンテンツの公開を防ぐように設計された、高度で信頼できる技術的および物理的な規制を行っています。さらに、AWS がデータを使用する場合はお客様との契約を確実に遵守します。詳細については、https://aws.amazon.com/compliance/data-privacy-faq/ を参照してください。

Q: Amazon Textract で処理および保存された自分のコンテンツには、誰がアクセスできますか?

A: Amazon Textract で処理されたコンテンツにアクセスできるのは承認された従業員のみです。AWS の最優先事項は、お客様からの信頼、プライバシー、およびお客様のコンテンツのセキュリティです。また、AWS では、保管中や転送中の暗号化など、お客様のコンテンツへの不正アクセスやお客様のコンテンツの公開を防ぐように設計された、適切かつ高度な技術的および物理的な規制を行っています。さらに、AWS がデータを使用する場合はお客様との契約を確実に遵守します。詳細については、https://aws.amazon.com/compliance/data-privacy-faq/ を参照してください。

Q:Amazon Textract で保存された画像やドキュメントは削除できますか?

A: はい。お客様のアカウントに関連するドキュメントおよび画像の入力の削除リクエストについては、AWS サポートにお問い合わせください。ドキュメントと画像の入力を削除すると、Amazon Textract の使い心地が悪くなる可能性があります。

Q: Amazon Textract で処理および保存されたコンテンツの所有権は、そのまま自分が保持するのですか?

A: はい。お客様は常に自分のコンテンツの所有権を保持します。AWS では、お客様のコンテンツをお客様の同意なく使用することはありません。

Product-Page_Standard-Icons_01_Product-Features_SqInk
主なお客様

お客様の成功事例をご覧ください。

詳細 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
Product-Page_Standard-Icons_03_Start-Building_SqInk
コンソールで構築を開始する

AWS マネジメントコンソールで Amazon Textract を使った構築を始めましょう。

サインアップ