Amazon Comprehend は、機械学習を使用してテキストから洞察を見つける自然言語処理 (NLP) サービスです。Amazon Comprehend では、キーフレーズ抽出、感情分析、実体認識、トピック形成、言語検出 API を提供し、自然言語処理を簡単にお使いのアプリケーションに統合できます。Amazon Comprehend API をお使いのアプリケーションに読み込むだけで、ソースとなるドキュメントやテキストの場所がわかります。API は、エンティティ、キーフレーズ、感情、言語を、アプリケーションで使用できる JSON 形式で出力します。

キーフレーズ抽出

キーフレーズ抽出 API は、キーフレーズまたは会話のポイント、およびそれがキーフレーズであることを裏付ける信頼性スコアを返します。

  • 例: この例では、お客様が DSLR カメラとインスタントフィルムカメラを比較しています。API はキーフレーズを抽出し、キーフレーズが繰り返される回数をカウントし、結果についての信頼性スコアを返します。

    サンプルテキスト: 私は熱心な写真家です。主に、DSLR か、気軽に持ち歩けるインスタントフィルムカメラで撮影しています。能力と利便性で DSLR に勝るものはありませんが、インスタントフィルムカメラには魔法のようなものがあります。おそらくそれは、実際のフィルムで撮影していることや、撮影したすべてのショットが唯一無二の物理的な人工物であることかもしれません (写真がありふれたものである今日の Instagram や Facebook の世界では特殊なことです)。私が確かだとわかっていることは、それらの写真は信じられないほど楽しく利用でき、そのうちの 1 枚をパーティーで取り出すと人々の目が明るくなることです。

    キーフレーズ カウント 信頼性
    熱心な写真家 1 0.99
    私の DSLR 2 0.97
    私のインスタントフィルムカメラ 2 0.99
    気軽に 1 0.99
    能力と利便性 1 0.94
    実際のフィルム 1 0.99
    すべてのショット 1 0.92
    唯一無二の物理的な人工物 1 0.99
    今日 1 0.91
    世界 1 0.99
    Instagram や Facebook 1 0.99

感情分析

感情分析 API は、テキストの全体的な感情 (肯定的、否定的、中立的、または混在) を返します。

構文解析

Amazon Comprehend Syntax API を使用すれば、お客様は、トークン分割や品詞 (PoS) を使用してテキストを分析したり、テキスト内の名詞や形容詞などの単語境界やラベルを識別したりできます。

エンティティ認識

エンティティ認識 API は、提供されたテキストに基づいて自動的に分類される、名前付きエンティティ (「人」、「場所」、「位置」など) を返します。

Medical Named Entity および Relationship Extraction (NERe)

Medical NERe API は、投薬、病状、検査、治療と手順 (TTP)、解剖学、および保護された健康情報 (PHI) などの医療情報を返します。また、Medications と TTP に関連付けされた抽出したサブタイプ間の関係性も識別します。エンティティの「特質」 (否定、または診断が徴候か症状である場合) として提供されるコンテクスト情報も識別します。下の表は、関連するサブタイプとエンティティの特質を持つ、抽出した情報を示しています。

PHI のみを抽出するには、Protected Helath Information Data Identification (PHId) API を使用します。

カスタムエンティティ

カスタムエンティティを使用すると、Amazon Comprehend をカスタマイズして、ドメインに固有の用語を識別できます。AutoML を使用して、Comprehend は小さなプライベートインデックスの例 (たとえば、ポリシー番号と使用されるテキストのリスト) から学習し、プライベートなカスタムモデルをトレーニングして、他のテキストブロックでこれらの用語を認識させます。管理するサーバーはなく、習得するアルゴリズムもありません。

言語検出

言語検出 API は、100 を超える言語で書かれたテキストを自動的に識別し、主要言語と、言語が主要であることを裏付ける信頼性スコアを返します。

カスタム分類子

カスタム分類子 API を使用すると、ML を学習することなく、ビジネス特有のラベルを使用してカスタムのテキスト分類モデルを簡単に構築できます。たとえば、カスタマーサポート組織はカスタム分類子を使用して、顧客がどのように問題を記述したかを元に、インバウンドリクエストを問題のタイプで自動的に分類できます。カスタムモデルの作成はシンプルです。使用するラベルごとにテキストの例を与えると、Comprehend はカスタムモデルを作成するためにそこに照準をあてます。機械学習の経験を必要としないので、一行のコードも使用することなくカスタムモデルを構築できます。SDK を使用すると、顧客分類機能を現在のアプリケーションに統合することができます。カスタムモデルを使用すると、ウェブサイトのコメントの調整、お客様からのフィードバックのトリアージ、ワークグループドキュメントの整理が簡単にできます。詳細については、このドキュメントページをご覧ください。

トピックモデリング

トピックモデルは、Amazon S3 に格納された一連のドキュメントから、関連する用語またはトピックを識別します。コレクション内の最も一般的なトピックを識別し、それらをグループに整理し、次にどのドキュメントがどのトピックに属しているかをマップします。

  • : ドキュメント (Doc1.txt、Doc2.txt、Doc3.txt、および Doc4.txt) が Amazon S3 に保存されているときに、Amazon Comprehend をその位置にポイントすると、Comprehend はドキュメントを分析して 2 つのビューを返します。

    1.トピックであるキーワードのグループ化。

    キーワードの各グループはトピックグループに関連付けられています。重みは、グループ内のキーワードの出現頻度を指します。重みが 1 に最も近いキーワードは、トピックグループのコンテキストを最もよく表しています。
    トピックグループ キーワード 重み
    1 Amazon 0.87
    1 シアトル 0.65
    2 休日 0.78
    2 ショッピング 0.67
    キーワードの各グループはトピックグループに関連付けられています。重みは、グループ内のキーワードの出現頻度を指します。重みが 1 に最も近いキーワードは、トピックグループのコンテキストを最もよく表しています。

    2.トピックによるドキュメントのグループ化。

    ドキュメント名 トピックグループ 比率
    Doc1.txt 1 0.87
    Doc2.txt 1 0.65
    Doc3.txt 2 0.78
    Doc4.txt 2 0.67
    各ドキュメントは、ドキュメント内に存在するトピックグループの重み付けされたキーワードの比率に基づいて、トピックグループにマップされます。

多言語サポート

Amazon Comprehend は、英語とフランス語、ドイツ語、イタリア語、ポルトガル語、およびスペイン語のテキストのテキスト分析を実行できます。これにより、複数の言語でテキストを検出し、Amazon Translate でテキストを英語、フランス語、ドイツ語、イタリア語、ポルトガル語、またはスペイン語に変換してから、Amazon Comprehend を使用してテキスト分析を実行できるアプリケーションを構築できます。

Amazon Comprehend 料金の詳細

料金ページにアクセスする
始める準備はできましたか?
サインアップ
ご不明な点がおありですか?
お問い合わせ