Amazon Web Services ブログ

エンタープライズ検索の再発明 - Amazon Kendora が一般発売されました

2019年末には、機械学習を活用した非常に正確で使いやすいエンタープライズ検索サービス Amazon Kendra のプレビューエディションをリリースしました。本日、Amazon Kendra が一般販売されることになりました。

過去数十年間の驚くべき成果のすべてを用いても、情報技術は、必要とする情報をすばやく簡単に見つけ、皆が日々直面している問題を解決するには至っていません。会社の出張規定の最新版を探す場合でも、「エポキシ接着剤の引張強度は?」などのより技術的な質問をする場合でも、すぐに正いい回答を得られれそうにはありません。全く回答を得られない時もあります。

こうした問題はユーザーにとってストレスとなるだけでなく、生産性の大幅な低下にもつながります。IDCの調査によると、非効率的な検索のコストは、従業員 1 人当たり年間 5,700 USD です。従業員 1,000 人の企業では、年間 570 万 USD が蒸発することになります。しかも、これには、精度の低い検索によって発生する責任やコンプライアンスリスクは含まれていません。

この問題にはいくつかの原因があります。第 1 に、ほとんどの企業データは構造化されておらず、必要な情報を特定することが困難なことです。第 2 に、多くの場合、データは組織のサイロに分散し、ネットワーク共有、リレーショナルデータベース、サードパーティアプリケーションなどの異種バックエンドに保存されていることです。最後に、キーワードの検索システムでは、適切なキーワードの組合せを見つける必要があり、通常は多数のヒットを返し、ほとんどのヒットはクエリとは無関係なものです。

これらの問題点を考慮して、Amazonは、お客様が適切な検索機能を構築できるように支援することにしました。この取り組みの結果が、Amazon Kendra です。

Amazon Kendora のご紹介
Amazon Kendra を使えば、数回クリックするだけで、ファイルシステム、アプリケーション、イントラネット、リレーショナルデータベースなど、さまざまなバックエンドに保存された構造化データと非構造化データのインデックスを作成できます。予想される通り、すべてのデータは HTTPS を使用して処理中に暗号化され、また、保存中にAWS Key Management Service (KMS) で暗号化することもできます。

Amazon Kendra は、ドメインから受けとる複雑な言語を理解するように最適化されています。IT関連ドメイン(例: 「 VPNの設定方法を教えてください。」)、医療およびライフサイエンス関連ドメイン(例: 「ALSの遺伝子マーカーとは何ですか。」)およびその他の多くのドメイン領域からの質問を受け取ることになります。このマルチドメインの専門知識により、Kendra はより正確な回答を見つけることができるのです。また、開発者は、信頼できるデータソースやドキュメントの鮮度などの基準を使用して、結果の関連性を明示的に調整することができます。

Kendra 検索は、AWS コンソールまたは API で利用可能なコードサンプルを使用して、任意のアプリケーション (検索ページ、チャットアプリ、チャットボットなど) に迅速に展開できます。お客様は、Kendara の最新のセマンティック検索を数分で実行できます。

今日、既に多くの組織で Amazon Kendra が使用されています。たとえば、Alien Institute は、生物学の最大の謎のいくつかを解決し、脳、ヒト細胞、免疫系の生物学の未知の領域を研究することに取り組んでいます。_Allen insitute for AI の最高経営責任者 (CEO) の Oren Etzioni 博士は、次のように述べています。「 Amazon Kendra のような AI が今できる最も影響力のあることの 1 つは、科学者、学者、技術者が膨大な科学文献の中から適切な情報をすばやく見つけ、重要な研究を迅速に進めることです。Allen Institute for AI の Semantic Scholar チームは、パートナーとともに CORD-19 を提供し、このリソースを活用してこの重要な問題に取り組むためにコミュニティが構築している AI リソースをサポートしています。

Amazon Kendra の新機能の紹介
プレビューフェーズで収集したお客様のフィードバックに基づき、次の機能を Amazon Kendra に追加しました。

  • エンタープライズエディションおよび新しく導入された開発者版の新しい拡張オプション(詳細は下記をご参照ください)。
  • 3つの新しい Cloud Connector:OneDrive、Salesforce、ServiceNow (S3RDS および SharePoint Online に追加)
  • 8 つの新しいドメインに関する専門知識: 自動車、健康、人事、法務、メディア、エンターテインメント、ニュース、テレコム、旅行、レジャー(化学、エネルギー、金融、保険、IT、製薬)に追加。
  • インデックス作成の高速化と精度の向上。

Amazon Kendra によるデータのインデックス作成
このデモのために、Wikipedia の小さなサブセット(約 50,000 の Web ページ)をダウンロードしました。個々のファイルを HTML 形式でAmazon Simple Storage Service (S3) バケットにアップロードしました。

Kendraコンソールに向かって、まず、新しいインデックスを作成し、名前と説明を入力します。AWS Key Management Service (KMS) を使用して暗号化を有効にするには、ワンクリックだけです。

30 分程度経過すると、インデックスはインサービス状態となります。データソースを追加できるようになりました。

S3 バケットの追加は非常に簡単です。まず、データソースの名前を入力します。

次に、S3 バケットの名前を定義します。また、既存のロールを選択するか、新しいロールを作成して、Kendraで使用される IAM ロールの名前を指定する必要があります。

データソースに追加された新しいデータでインデックスを更新するために、定期的に同期をスケジュールすることができます。私の場合は、真夜中に毎日更新しています。

次の画面では、すべてのパラメータを確認し、データソースを作成できます。アクティブになったら、[今すぐ同期] ボタンをクリックして初期同期を開始します。

しばらくすると、同期が完了します。テストウィンドウに移動すると、インデックスでクエリの実行を開始できるようになっています。

Amazon Kendra を使用したデータのクエリ
先日、投稿の 1 つを書いている間、Thad Jones と言う名前のミュージシャンが演奏するとてもお気にいりのジャズの歌を聴いていました。ジャズプレーヤーについて何も知らないのですが、Kendra がもっと詳しく知るのに役に立つのかどうか、興味がありました。

当然のことながら、このクエリは多数のドキュメントに一致しました。しかし、Kendra は、私のクエリに対して信頼性の高い回答を提示してくれました。インデックス付きページの 1 つの特定の段落を指し示してくれました。関連するコンテンツが強調表示され、すぐにこれが私のクエリに対する正しい回答であることが分かりました。それ以上見る必要はありません。 そのため、Amazon Kendra は、これが本当に良い回答であることを知っていると、私は親指を立てて認めました。

Thad Jones について詳しく知りたかったので、2 つ目の質問をしました。

再度、回答が提示されました。今回は、Kendra は、さらに一歩進歩し、文書自体を返すのではなく、文書から正確な回答を返すようになりました。これは、いかに Kendra が状況を理解し、関係(この例では、個人と出生都市のリンク)を抽出することができるかを示しています。

さらに好奇心がわき、3 つ目の質問をしました。

さらに回答が提示されました。これも目標通りでした。探している情報は、最初の文にありました。Thad Jones は、Count Basie と演奏したことがありました。ご覧のように、上記の段落には「play」という単語さえも含まれていません。しかし、Amazon Kendra は私の質問を正しく解釈しました。Thad Jones はミュージシャンです。彼が他の人と演奏しているかを尋ねている場合は、スポーツパートナーではなく他のミュージシャンを探している可能性が非常に高くなります。 自然言語のクエリを理解し、ドメインに関する深い知識を抽出するこの機能により、Amazon Kendra は非常に正確になります。

開始方法
Amazon Kendra は、現在、米国東部 (バージニア州北部)米国西部 (オレゴン州)欧州 (アイルランド) で利用可能です。

2 つのエディションのいずれかを選択できます。

エンタープライズエディションでは、最大 500,000 件のドキュメントを検索し、1 日あたり最大40,000 件のクエリを 1 時間あたリ 7 USD で実行できます。また、スキャンしたドキュメントごとに 0.000001 USD、同期時にはコネクタごとに 0.35 USD が課されます。インデックス作成またはクエリ処理能力をさらに必要とする場合は、それぞれを個別に拡張できるようになっています。1 時間あたり 3.5 USD で照会を 4 万件追加、1 時間あたり 3.5 USD で検索可能なドキュメントを50 万件追加できます。

開発者版には、エンタープライズエディションと同じ機能があります。但し、1 日当たりのクエリ数は 4,000 件に制限されており、5 つのデータソースで最大 10,000 件の検索可能なドキュメントに制限されています。スケーリングオプションは使用できません。開発者版は、単一のアベイラビリティゾーンで実行されるため、本番環境では使用しないでください。

Amazon Kendra をお試しください。 通常の AWS サポート連絡先、または KendraAWS フォーラムからのフィードバックをお待ちしております。

– Julien