Amazon Comprehend は、機械学習を使用してテキストから洞察を見つける自然言語処理 (NLP) サービスです。Amazon Comprehend では、キーフレーズ抽出、感情分析、実体認識、トピック形成、言語検出 API を提供し、自然言語処理を簡単にお使いのアプリケーションに統合できます。Amazon Comprehend API をお使いのアプリケーションに読み込むだけで、ソースとなるドキュメントやテキストの場所がわかります。API は、エンティティ、キーフレーズ、感情、言語を、アプリケーションで使用できる JSON 形式で出力します。
キーフレーズ抽出
キーフレーズ抽出 API は、キーフレーズまたは会話のポイント、およびそれがキーフレーズであることを裏付ける信頼性スコアを返します。
-
例: この例では、お客様が DSLR カメラとインスタントフィルムカメラを比較しています。API はキーフレーズを抽出し、キーフレーズが繰り返される回数をカウントし、結果についての信頼性スコアを返します。
サンプルテキスト: 私は熱心な写真家です。主に、DSLR か、気軽に持ち歩けるインスタントフィルムカメラで撮影しています。能力と利便性で DSLR に勝るものはありませんが、インスタントフィルムカメラには魔法のようなものがあります。おそらくそれは、実際のフィルムで撮影していることや、撮影したすべてのショットが唯一無二の物理的な人工物であることかもしれません (写真がありふれたものである今日の Instagram や Facebook の世界では特殊なことです)。私が確かだとわかっていることは、それらの写真は信じられないほど楽しく利用でき、そのうちの 1 枚をパーティーで取り出すと人々の目が明るくなることです。
キーフレーズ カウント 信頼性 熱心な写真家 1 0.99
私の DSLR 2 0.97 私のインスタントフィルムカメラ 2 0.99
気軽に 1 0.99
能力と利便性 1 0.94 実際のフィルム 1 0.99 すべてのショット 1 0.92 唯一無二の物理的な人工物 1 0.99
今日 1 0.91 世界 1 0.99
Instagram や Facebook 1 0.99
感情分析
感情分析 API は、テキストの全体的な感情 (肯定的、否定的、中立的、または混在) を返します。
-
例: この例では、お客様が 1 足の靴についてのフィードバックを投稿しています。API は、信頼性スコアとともにお客様が表している感情を識別します。
サンプルテキスト: 私が注文したのは S です。それがぴったり合うと思っていたのですが、M-L のようにやや大きめでした。品質は素晴らしいものでした。写真よりも明るい茶色ですが、かなり近い色です。内側に綿やウールの裏地が付いていれば 10 倍も良いものになるでしょう。
感情 スコア 混在 0.89 肯定的 0.09 否定的 0.01 中立的 0.00
構文解析
Amazon Comprehend Syntax API を使用すれば、お客様は、トークン分割や品詞 (PoS) を使用してテキストを分析したり、テキスト内の名詞や形容詞などの単語境界やラベルを識別したりできます。
-
例: この例では、Comprehend Syntax API を使用して短いドキュメントを分析します。Syntax API は、テキストをトークン分割 (単語境界を定義) して、名詞 や動詞などの関連する品詞で各単語にラベルを付けます。開始や終了を知らせ、テキスト内での単語の位置がわかるだけでなく、信頼性スコアも提供します。
サンプルテキスト: I love my fast, new Kindle Fire!
テキスト タグ I 代名詞 Love 動詞
My 代名詞 高速 形容詞 、 句読点 New 形容詞 Kindle 固有名詞 Fire
固有名詞 ! 句読点
エンティティ認識
エンティティ認識 API は、提供されたテキストに基づいて自動的に分類される、名前付きエンティティ (「人」、「場所」、「位置」など) を返します。
-
例: この例では、会社の説明を見ています。API は、「組織」、「日付」、「位置」のようなエンティティを識別し、エンティティが言及された回数を数え、信頼性スコアを返します。
サンプルテキスト: Amazon.com, Inc. はワシントン州シアトルにあり、1994 年 7 月 5 日にジェフ・ベゾス氏によって設立されました。顧客は書籍からブレンダーまであらゆるものを購入できます。シアトルはポートランドの北、ブリティッシュコロンビア州バンクーバーの南にあります。シアトルに本拠を置くその他の有名企業は、スターバックスとボーイングです。
エンティティ カテゴリ カウント 信頼性 Amazon.com, Inc.
組織 1 0.96 ワシントン州シアトル 位置 1 0.96 1994 年 7 月 5 日 日付 1 0.99 ジェフ・ベゾス 人 1 0.99 シアトル
位置 2
0.98 ポートランド
位置 1 0.99 ブリティッシュコロンビア州バンクーバー 位置 1 0.97 スターバックス
組織 1 0.91
ボーイング
組織 1 0.99
Medical Named Entity および Relationship Extraction (NERe)
Medical NERe API は、投薬、病状、検査、治療と手順 (TTP)、解剖学、および保護された健康情報 (PHI) などの医療情報を返します。また、Medications と TTP に関連付けされた抽出したサブタイプ間の関係性も識別します。エンティティの「特質」 (否定、または診断が徴候か症状である場合) として提供されるコンテクスト情報も識別します。下の表は、関連するサブタイプとエンティティの特質を持つ、抽出した情報を示しています。
PHI のみを抽出するには、Protected Helath Information Data Identification (PHId) API を使用します。
-
例 : この例では、入院時診療記録を見ています。API は医療情報を識別し、信頼スコアを返します。
サンプルテキスト : Smith 氏は、冠動脈疾患があり高血圧が認められる 63 歳の男性です。現在の投薬 : LIPITOR 20mg を 1 日 1 回摂取しています。
カスタムエンティティ
カスタムエンティティを使用すると、Amazon Comprehend をカスタマイズして、ドメインに固有の用語を識別できます。AutoML を使用して、Comprehend は小さなプライベートインデックスの例 (たとえば、ポリシー番号と使用されるテキストのリスト) から学習し、プライベートなカスタムモデルをトレーニングして、他のテキストブロックでこれらの用語を認識させます。管理するサーバーはなく、習得するアルゴリズムもありません。
-
例: この例では、保険会社が、ビジネス、ポリシー番号に固有のエンティティのテキストドキュメントを分析したいと考えています。
サンプルテキスト: こんにちは、Sam Ford です。自動車事故の保険申請を行います。私のポリシーコードは、456-YQT です。
エンティティ カテゴリ カウント Confidence 456-YQT Policy_ID 1 0.95
言語検出
言語検出 API は、100 を超える言語で書かれたテキストを自動的に識別し、主要言語と、言語が主要であることを裏付ける信頼性スコアを返します。
-
例: この例では、API はテキストを解析し、信頼性スコアとともにテキストの主要言語をイタリア語として識別することができます。
サンプルテキスト: Amazon Elastic Compute Cloud (Amazon EC2) è un servizio Web che fornisce capacità di elaborazione sicura e scalabile nel cloud.È concepito per rendere più semplice il cloud computing su scala Web per gli sviluppatori.
ISO-639-1 言語コード 言語 信頼性 それ イタリア語 1.0
カスタム分類子
カスタム分類子 API を使用すると、ML を学習することなく、ビジネス特有のラベルを使用してカスタムのテキスト分類モデルを簡単に構築できます。たとえば、カスタマーサポート組織はカスタム分類子を使用して、顧客がどのように問題を記述したかを元に、インバウンドリクエストを問題のタイプで自動的に分類できます。カスタムモデルの作成はシンプルです。使用するラベルごとにテキストの例を与えると、Comprehend はカスタムモデルを作成するためにそこに照準をあてます。機械学習の経験を必要としないので、一行のコードも使用することなくカスタムモデルを構築できます。SDK を使用すると、顧客分類機能を現在のアプリケーションに統合することができます。カスタムモデルを使用すると、ウェブサイトのコメントの調整、お客様からのフィードバックのトリアージ、ワークグループドキュメントの整理が簡単にできます。詳細については、このドキュメントページをご覧ください。
-
例:航空会社でカスタマーサポートへのフィードバックを整理してみるとします。各フィードバックを、会計の疑問、チケットの払い戻し、フライトへの苦情に整理しようと思います。このサービスをトレーニングするには、それぞれの問題からテキストの例を含む CSV ファイルを作成し、各サンプルに該当する 4 つのラベルのいずれかを付けます。このサービスでは、お客様に代わってカスタムモデルを自動的にトレーニングします。翌日にモデルを使用してすべての通話を分析するには、各テキストファイルをサービスに送信し、ラベル一致の信認とともに、ラベルの付いた結果を受け取ります。
テキスト ラベル 信頼性スコア Line 0 会計の疑問 0.92 Line 1 チケットの払い戻し 1 line 2 フライトへの苦情 1 line 3 フライトへの苦情 0.91 Doc5.csv チケットの払い戻し 1
トピックモデリング
トピックモデルは、Amazon S3 に格納された一連のドキュメントから、関連する用語またはトピックを識別します。コレクション内の最も一般的なトピックを識別し、それらをグループに整理し、次にどのドキュメントがどのトピックに属しているかをマップします。
-
例: ドキュメント (Doc1.txt、Doc2.txt、Doc3.txt、および Doc4.txt) が Amazon S3 に保存されているときに、Amazon Comprehend をその位置にポイントすると、Comprehend はドキュメントを分析して 2 つのビューを返します。
1.トピックであるキーワードのグループ化。
キーワードの各グループはトピックグループに関連付けられています。重みは、グループ内のキーワードの出現頻度を指します。重みが 1 に最も近いキーワードは、トピックグループのコンテキストを最もよく表しています。トピックグループ キーワード 重み 1 Amazon 0.87 1 シアトル 0.65 2 休日 0.78 2 ショッピング 0.67 キーワードの各グループはトピックグループに関連付けられています。重みは、グループ内のキーワードの出現頻度を指します。重みが 1 に最も近いキーワードは、トピックグループのコンテキストを最もよく表しています。2.トピックによるドキュメントのグループ化。
ドキュメント名 トピックグループ 比率 Doc1.txt 1 0.87 Doc2.txt 1 0.65 Doc3.txt 2 0.78 Doc4.txt 2 0.67 各ドキュメントは、ドキュメント内に存在するトピックグループの重み付けされたキーワードの比率に基づいて、トピックグループにマップされます。
多言語サポート
Amazon Comprehend は、英語とフランス語、ドイツ語、イタリア語、ポルトガル語、およびスペイン語のテキストのテキスト分析を実行できます。これにより、複数の言語でテキストを検出し、Amazon Translate でテキストを英語、フランス語、ドイツ語、イタリア語、ポルトガル語、またはスペイン語に変換してから、Amazon Comprehend を使用してテキスト分析を実行できるアプリケーションを構築できます。
Amazon Comprehend 料金の詳細