Amazon Web Services ブログ

AWS で独自の自然言語モデルを構築する (機械学習経験は必要ありません)

AWS は、昨年の AWS re:Invent で Amazon Comprehend を発表しました。これは、非構造テキストからキーフレーズ、場所、人物、名前、ブランド、イベント、およびセンチメントを抽出する自然言語処理サービスです。AWS によって訓練された高度な深層学習モデルによって動作する Comprehend では、機械学習スキルを必要とすることなく、開発者なら誰でもアプリケーションに自然言語処理を追加することが可能になります。

本日 のブログ記事では、開発者が Comprehend を拡張して、自然言語用語を識別し、そのチーム、ビジネス、または業界に特化したテキストを分類できるようにする、Comprehend の新しいカスタム化機能についてお知らせしたいと思います。

AWS では、大勢のお客様から、データ、特に非構造の自然言語で構成されるデータが過剰にあることをお聞きしていますが、大量に存在するカスタマー E メール、サポートチケット、会計報告、製品レビュー、ソーシャルメディア、または広告文の中に隠れている有力情報の宝庫を見つけるために組織の内部を掘り起こす必要はなくなると思われます。藁山の針を探す援助をすることは、機械学習が特に得意とすることです。機械学習モデルは、大量のテキストの中から関心がある特定のアイテムを探し出すことにおいて極めて正確になり得 (分析レポート内での企業名の検索など)、言葉の中に隠されたセンチメントにも敏感です (否定的なレビュー、またはカスタマーサービス担当者とカスタマーの建設的な交流の特定)。

Comprehend は一般名称 (場所および物など) の検索のために高精度のモデルを備えていますが、お客様は、その機能を拡張して、ポリシー番号や部品コードなどのより具体的な言語を識別したいと考えておられることがよくあります。これには通常、何もない状態から初めて、新しい専門的な機械学習言語モデルを構築すること (データに注釈を付ける、アルゴリズムを選択する、パラメータを調整する、モデルを最適化する、そして本番でモデルを実行する) が伴います。これらすべての手順には、深層機械学習に関する専門知識が必要となるだけでなく、「Undifferentiated Heavy Lifting」(差別化につながらない重労働)、つまり多くのアプリケーション開発者がむしろ独自の新しい機能の構築に費やしたいと考える労力も意味しています。

Amazon Comprehend のカスタマイズ (機械学習経験は必要ありません)

今日、AWS はお客様が藁山でより多くの針を見つけるためのお手伝いをしています。これに機械学習スキルは必要ありません。Comprehend は目に見えないところでカスタマイズされた機械学習モデルを構築、訓練、およびホストするための重労働を行い、プライベート API を通じてこれらのモデルを利用できるようにします。

カスタムエンティティは、開発者が Comprehend をカスタマイズして、開発者の分野に特定の用語を識別することを可能にします。Comprehend は、例から成る小規模のプライベートインデックス (例えば、ポリシー番号のリスト、およびそれらが使用されるテキスト) から学び、他のテキストブロックでこれらを認識するようにプライベートなカスタムモデルを訓練します。管理するサーバーもなければ、習得するアルゴリズムもありません。

カスタム分類は、開発者が名前が付けられたカテゴリにドキュメントをグループ化できるようにします。わずか 50 件の例で、Comprehend はドキュメントのすべてを分類するために使用できるカスタム分類モデルを自動的に訓練します。サポート E メールを部署ごとに、ソーシャルメディア記事を製品ごとに、または分析レポートを事業単位ごとにグループ化することができます。例がない、またはカテゴリが頻繁に変更される場合 (これはソーシャルメディアで良く見られます)、Comprehend はトピックモデリングを使用してドキュメントの内容だけに基づいて分類することもできます。

Amazon Comprehend を使ったお客様の成功例

特定の分野における非構造テキストを理解するとなると、法律業界以上に特化された自然言語はありません。ほとんどの法律関係文書で使用されている「法律用語」は、その複雑な構文、用語体系、および構造で有名です。これは、Comprehend のカスタムエンティティを役に立てることができる好例です。これらの新しい機能の開発において、AWS はレクシスネクシス社と連携し、何百億ものドキュメントから極めて高い精度で法律エンティティを抽出しました。

レクシスネクシス社の最高データ責任者であるリック・マクファーランド氏はこのように語っています。「私たちは法律専門家に洞察力のある研究と分析を提供し、情報に基づいた判断を行うお手伝いをしていることから、法律文書から洞察を見いだすためのより良い方法を常に探しています。Amazon Comprehend の自動機械学習のおかげで、私たちは機械学習に関連する複雑性に関与することなく、正確なカスタムエンティティの認識モデルを構築することができるようになりました。裁判官および弁護士など、私たちが最も関心を持っているエンティティを、2 億を超える文書の中から 92 パーセント以上の精度で迅速に識別することができます。」

新しい Amazon Comprehend 機能が一般提供されました

AWS の当初からの目標は、これまで大規模で十分な資金を持つ組織にしか手の届かなかったテクノロジーを、すべての開発者が利用できるようにすることです。そして、これを EC2 および RDS などのサービスと同様に機械学習で実現するには、機械学習スタック全体において、AWS のお客様のために考案とシンプル化を継続していく必要があります。Comprehend のためのこれらの新しい機能は、その精神を完璧に反映するものです。私たちは、これらを使って何が構築されるかを見ることをとても楽しみにしています。

 

 Matt Wood 博士、AWS 人工知能担当ジェネラルマネージャー