Amazon Web Services ブログ

Amazon Comprehend が構文解析をサポート

Amazon Comprehend が、Syntax API をサポートするようになりました。 これにより、テキストを (たとえば、単語の境界を抽出するために) トークン化し、対応する品詞 (PoS) を単語毎にトークン化することができます。

本日、Amazon Comprehend は、顧客のコメントが否定的であるか肯定的であるかを知ることや、たとえば「Amazon」を「組織」として固有名詞を分類して特定することなど、ユースケースの分析を可能にします。この新しい Syntax API を使用すると、顧客は最も詳細なレベルのテキストとその単語自体の構文的な意味を分析できるため、より幅広いユースケースをカバーするテキスト文書をより細かく分析することができます。

たとえば、キッチンブレンダー製品を発売したばかりで、お客様のコメントを分析して、どの色が最も多く話題に挙げられているかを調べたいとします。

API に対して次の文字列を送信します。

「I love my new red kitchen blender」

応答は、それぞれの単語、トークン ID、単語自体、オフセット (テキスト内でのその単語の位置)、品詞タグ (形容詞、名詞、動詞など)、信頼度スコア (サービスが、正しい品詞タグであると確信できる度合) を返します。

以下は、応答の例です。

{
    "SyntaxTokens": [
        {
            "Text": "It", 
            "EndOffset": 2, 
            "BeginOffset": 0, 
            "PartOfSpeech": {
                "Tag": "PRON", 
                "Score": 0.8389829397201538
            }, 
            "TokenId": 1
        }, 
        {
            "Text": "is", 
            "EndOffset": 5, 
            "BeginOffset": 3, 
            "PartOfSpeech": {
                "Tag": "AUX", 
                "Score": 0.9189288020133972
            }, 
            "TokenId": 2
        }, 
        {
            "Text": "raining", 
            "EndOffset": 13, 
            "BeginOffset": 6, 
            "PartOfSpeech": {
                "Tag": "VERB", 
                "Score": 0.9977611303329468
            }, 
            "TokenId": 3
        }, 
        {
            "Text": "today", 
            "EndOffset": 19, 
            "BeginOffset": 14, 
            "PartOfSpeech": {
                "Tag": "NOUN", 
                "Score": 0.9993606209754944
            }, 
            "TokenId": 4
        }, 
        {
            "Text": "in", 
            "EndOffset": 22, 
            "BeginOffset": 20, 
            "PartOfSpeech": {
                "Tag": "ADP", 
                "Score": 0.9999061822891235
            }, 
            "TokenId": 5
        }, 
        {
            "Text": "Seattle", 
            "EndOffset": 30, 
            "BeginOffset": 23, 
            "PartOfSpeech": {
                "Tag": "PROPN", 
                "Score": 0.9940338730812073
            }, 
            "TokenId": 6
        }, 
        {
            "Text": ".", 
            "EndOffset": 31, 
            "BeginOffset": 30, 
            "PartOfSpeech": {
                "Tag": "PUNCT", 
                "Score": 0.9999997615814209
            }, 
            "TokenId": 7
        }
    ]
}

このサービスは、リクエスト毎に単一の文書に対して DetectSyntax API アクションを使用するか、リクエスト毎に最大 25 の文書に対して BatchDetectSyntax API アクションを使用して、同期リクエストをサポートします。

たとえば、AWS CLI を使用すると、前のリクエストは次のようになります。

[user]$ aws comprehend detect-syntax --text "I love my red kitchen blender" --language-code en

Syntax API およびその他の Comprehend API は、次のアドレスの AWS SDK で利用できます: https://aws.amazon.com/tools/

Amazon Comprehend を使い始めるか、詳細について知るには、次のアドレスにアクセスしてください: https://aws.amazon.com/comprehend/


今回のブログ投稿者について

Binny Peh は AWS Machine Learning ソリューションのシニアプロダクトマーケティングマネージャーです。余暇にはテレビを思う存分楽しみ、美味しいものの追及に余念がありません。Binny のグラスはいつも半分だけいっぱい。これぞ、彼女の積極的な性格の表れだと、自負しています。