Amazon Comprehend は、機械学習を使用してテキストから洞察を見つける自然言語処理 (NLP) サービスです。Amazon Comprehend は、Custom Entity Recognition、カスタム分類、キーフレーズ抽出、感情分析、エンティティ認識などの API を使用することにより、お使いのアプリケーションに自然言語処理を簡単に統合できます。Amazon Comprehend API をお使いのアプリケーションに読み込むだけで、ソースとなるドキュメントやテキストの場所がわかります。API は、エンティティ、キーフレーズ、感情、言語を、アプリケーションで使用できる JSON 形式で出力します。
Custom Entity Recognition
Custom Entity Recognition を使用すると、Amazon Comprehend をカスタマイズして、ドメインに固有の用語を識別できます。Comprehend は、AutoML を使用して、少量の例 (例えば、ポリシー番号、請求番号、または SSN のリストなど) から学習し、機械学習を必要とせずに、PDF、プレーンテキスト、または Microsoft Word ドキュメント内の他のテキストブロック内の請求番号などの用語を認識するように、プライベートなカスタムモデルをトレーニングします。 詳細については、このドキュメントページをご覧ください。
-
例: この例では、保険会社が、ビジネス、ポリシー番号に固有のエンティティのテキストドキュメントを分析したいと考えています。
サンプルテキスト: こんにちは、Sam Ford です。自動車事故の保険申請を行います。私のポリシーコードは、456-YQT です。
エンティティ カテゴリ カウント 信頼性 456-YQT Policy_ID 1 0.95
カスタム分類子
カスタム分類子 API を使用すると、ML を学習することなく、ビジネス特有のラベルを使用してカスタムのテキスト分類モデルを簡単に構築できます。たとえば、カスタマーサポート組織はカスタム分類子を使用して、顧客がどのように問題を記述したかを元に、インバウンドリクエストを問題のタイプで自動的に分類できます。 カスタムモデルを使用すると、ウェブサイトのコメントの調整、お客様からのフィードバックのトリアージ、ワークグループドキュメントの整理が簡単にできます。詳細については、このドキュメントページをご覧ください。
-
例:航空会社でカスタマーサポートへのフィードバックを整理してみるとします。各フィードバックを、会計の疑問、チケットの払い戻し、フライトへの苦情に整理しようと思います。このサービスをトレーニングするには、それぞれの問題からテキストの例を含む CSV ファイルを作成し、各サンプルに該当する 3 つのラベルのいずれかを付けます。このサービスでは、お客様に代わってカスタムモデルを自動的にトレーニングします。翌日にモデルを使用してすべての通話を分析するには、各テキストファイルをサービスに送信し、ラベル一致の信認とともに、ラベルの付いた結果を受け取ります。
テキスト ラベル 信頼性スコア Line 0 会計の疑問 0.92 Line 1 チケットの払い戻し 1 line 2 フライトへの苦情 1 line 3 フライトへの苦情 0.91 Doc5.csv チケットの払い戻し 1
エンティティ認識
エンティティ認識 API は、提供されたテキストに基づいて自動的に分類される、名前付きエンティティ (「人」、「場所」、「位置」など) を返します。 詳細については、このドキュメントページをご覧ください。
-
例: この例では、会社の説明を見ています。API は、組織、日付、場所などのエンティティを識別し、信頼スコアを返します。
サンプルテキスト: Amazon.com, Inc. はワシントン州シアトルにあり、1994 年 7 月 5 日にジェフ・ベゾス氏によって設立されました。顧客は書籍からブレンダーまであらゆるものを購入できます。シアトルはポートランドの北、ブリティッシュコロンビア州バンクーバーの南にあります。シアトルに本拠を置くその他の有名企業は、スターバックスとボーイングです。
エンティティ カテゴリ 信頼性 Amazon.com, Inc.
組織 0.96 ワシントン州シアトル ロケーション 0.96 1994 年 7 月 5 日 日付 0.99 ジェフ・ベゾス 人 0.99 シアトル
ロケーション 0.98 ポートランド
ロケーション 0.99 ブリティッシュコロンビア州バンクーバー ロケーション 0.97 スターバックス
組織 0.91 ボーイング
組織 0.99
感情分析
感情分析 API は、テキストの全体的な感情 (肯定的、否定的、中立的、または混在) を返します。 詳細については、このドキュメントページをご覧ください。
-
例: この例では、お客様が 1 足の靴についてのフィードバックを投稿しています。API は、信頼性スコアとともにお客様が表している感情を識別します。
サンプルテキスト: 私が注文したのは S です。それがぴったり合うと思っていたのですが、M-L のようにやや大きめでした。品質は素晴らしいものでした。写真よりも明るい茶色ですが、かなり近い色です。内側に綿やウールの裏地が付いていれば 10 倍も良いものになるでしょう。
感情 スコア 混在 0.89 肯定的 0.09 否定的 0.01 中立的 0.00
Targeted Sentiment
Targeted Sentiment は、テキスト内のエンティティに対する感情 (肯定的、否定的、中立的、または混在) を識別することで、より詳細な感情のインサイトを提供します。詳細については、このドキュメントページをご覧ください。
-
例: この例では、あるレストランが顧客からのレビューを確認し、ビジネスの改善点を把握しています。
サンプルテキスト: ハンバーガーはとても美味しかったのですが、サービスが遅かったです。
テキスト エンティティタイプ エンティティ信頼性スコア 感情 スコア I 人 0.99 中立的 0.99 ハンバーガー その他 0.99 肯定的 0.99 サービス 属性 0.99 否定的 0.99
PII 識別とリダクション
Amazon Comprehend の機械学習機能を使って、顧客の電子メール、サポートチケット、製品レビュー、ソーシャルメディアなどに含まれる個人を特定できる情報 (PII) を検出し、リダクションします。機械学習の経験は必要ありません。例えば、サポートチケットやナレッジ記事を分析して PII エンティティを検出し、検索ソリューションにドキュメントをインデックスする前にテキストをリダクションすることができます。その後、検索ソリューションでは、ドキュメントに PII エンティティが含まれないようにします。PII エンティティをリダクションすることで、プライバシーを保護し、現地の法律や規制を遵守することができます。 詳細については、このドキュメントページをご覧ください。
-
例: この例では、顧客が銀行の明細書から個人情報や財務データをリダクションしたいと考えています。PII リダクション API は、PII を識別し、信頼性スコアとともにリダクションします。
サンプルテキスト: こんにちは、John Smith。 お客様の AnyCompany Financial Services, LLC のクレジットカード口座 1111-0000-1111-0008 には、支払期限 7 月 31 日の最低支払額 24.53 USD があります。自動支払いの設定に基づいて、お客様の銀行口座番号 XXXXXX1111、ルーティング番号 XXXXX0000 から支払期日に支払い額を引き落とします。
エンティティ
タイプ
スコア
John Smith
名前
0.99+
1111-0000-111-0008
クレジットデビット番号
0.99+
7 月 31 日
日付
0.99+
XXXXXX111
銀行口座番号
0.99+
XXXXX0000
銀行のルーティング番号
0.99+
毒性検出
Comprehend の毒性検出は、テキストベースのドキュメントに含まれる有毒な内容を検出するためのシンプルな NLP ベースのソリューションを提供します。この機能は、オンラインプラットフォームでのピアツーピアの会話や、生成系 AI の入出力を調整するために、すぐに使用できます。詳細については、このドキュメントページをご覧ください。
迅速な安全分類
Comprehend には、入力プロンプトを有害か無害かに分類できるトレーニング済みの 2 分類機能が用意されています。これを統合することで、LLM が無害なコンテンツにのみ応答するようにできます。詳細については、このドキュメントページをご覧ください。
キーフレーズ抽出
キーフレーズ抽出 API は、キーフレーズまたは論点と、これがキーフレーズであることを裏付ける信頼性スコアを返します。 詳細については、このドキュメントページをご覧ください。
-
例: この例では、お客様が DSLR カメラとインスタントフィルムカメラを比較しています。API はキーフレーズを抽出し、結果に関する信頼スコアを返します。
サンプルテキスト: 私は熱心な写真家です。主に、DSLR か、気軽に持ち歩けるインスタントフィルムカメラで撮影しています。能力と利便性で DSLR に勝るものはありませんが、インスタントフィルムカメラには魔法のようなものがあります。おそらくそれは、実際のフィルムで撮影していることや、撮影したすべてのショットが唯一無二の物理的な人工物であることかもしれません (写真がありふれたものである今日の Instagram や Facebook の世界では特殊なことです)。私が確かだとわかっていることは、それらの写真は信じられないほど楽しく利用でき、そのうちの 1 枚をパーティーで取り出すと人々の目が明るくなることです。
キーフレーズ 信頼性 熱心な写真家 0.99
私の DSLR 0.97 私のインスタントフィルムカメラ 0.99
気軽に 0.99
能力と利便性 0.94 実際のフィルム 0.99 すべてのショット 0.92 唯一無二の物理的な人工物 0.99
今日 0.91 世界 0.99
Instagram や Facebook 0.99
イベント検出
Comprehend Events は、ドキュメントからイベント構造を抽出し、何ページにもわたるテキストを簡単に処理できるデータに変換して、AI アプリケーションやグラフ可視化ツールで利用することができます。この API を使えば、大きなドキュメントセットに対して大規模に、「誰が」「何を」「いつ」「どこで」といった質問に、NLP の経験が以前になくても回答することができます。Comprehend Events を使用して、非構造化テキストで表現された実世界のイベントや関連するエンティティに関する詳細な情報を抽出します。 詳細については、このドキュメントページをご覧ください。
言語検出
言語検出 API は、100 を超える言語で書かれたテキストを自動的に識別し、主要言語と、言語が主要であることを裏付ける信頼性スコアを返します。 詳細については、このドキュメントページをご覧ください。
-
例: この例では、API はテキストを解析し、信頼性スコアとともにテキストの主要言語をイタリア語として識別することができます。
サンプルテキスト: Amazon Elastic Compute Cloud (Amazon EC2) è un servizio Web che fornisce capacità di elaborazione sicura e scalabile nel cloud.È concepito per rendere più semplice il cloud computing su scala Web per gli sviluppatori.
ISO-639-1 言語コード 言語 信頼性 それ イタリア語 1.0
構文解析
Amazon Comprehend Syntax API を使用すれば、お客様は、トークン分割や品詞 (PoS) を使用してテキストを分析したり、テキスト内の名詞や形容詞などの単語境界やラベルを識別したりできます。 詳細については、このドキュメントページをご覧ください。
-
例: この例では、Comprehend Syntax API を使用して短いドキュメントを分析します。Syntax API は、テキストをトークン分割 (単語境界を定義) して、名詞 や動詞などの関連する品詞で各単語にラベルを付けます。開始や終了を知らせ、テキスト内での単語の位置がわかるだけでなく、信頼性スコアも提供します。
サンプルテキスト: I love my fast, new Kindle Fire!
テキスト タグ I 代名詞 Love 動詞
My 代名詞 高速 形容詞 、 句読点 New 形容詞 Kindle 固有名詞 Fire
固有名詞 ! 句読点
トピックモデリング
トピックモデルは、Amazon S3 に格納された一連のドキュメントから、関連する用語またはトピックを識別します。コレクション内の最も一般的なトピックを識別し、それらをグループに整理し、次にどのドキュメントがどのトピックに属しているかをマップします。 詳細については、このドキュメントページをご覧ください。
-
例: ドキュメント (Doc1.txt、Doc2.txt、Doc3.txt、および Doc4.txt) が Simple Storage Service (Amazon S3) に保存されているときに、Amazon Comprehend をその位置にポイントすると、Comprehend はドキュメントを分析して 2 つのビューを返します。
1.トピックであるキーワードのグループ化。
キーワードの各グループはトピックグループに関連付けられています。重みは、グループ内のキーワードの出現頻度を指します。重みが 1 に最も近いキーワードは、トピックグループのコンテキストを最もよく表しています。トピックグループ キーワード 重み 1 Amazon 0.87 1 シアトル 0.65 2 休日 0.78 2 ショッピング 0.67 キーワードの各グループはトピックグループに関連付けられています。重みは、グループ内のキーワードの出現頻度を指します。重みが 1 に最も近いキーワードは、トピックグループのコンテキストを最もよく表しています。2.トピックによるドキュメントのグループ化。
ドキュメント名 トピックグループ 比率 Doc1.txt 1 0.87 Doc2.txt 1 0.65 Doc3.txt 2 0.78 Doc4.txt 2 0.67 各ドキュメントは、ドキュメント内に存在するトピックグループの重み付けされたキーワードの比率に基づいて、トピックグループにマップされます。
多言語サポート
Amazon Comprehend は、次の言語のテキスト分析を実行できます。ドイツ語、英語、スペイン語、イタリア語、
ポルトガル語、フランス語、日本語、韓国語、ヒンディー語、アラビア語、中国語 (簡体字)、中国語 (繁体字) のテキストです。その他の言語でアプリケーションを構築する場合、顧客は Amazon Translate を使用してテキストを Comprehend がサポートする言語に変換した後、Comprehend を使用してテキスト分析を行うことができます。言語サポートの詳細については、ドキュメントのページを参照してください。
Amazon Comprehend の料金の詳細