Amazon Web Services ブログ

Amazon Bedrock のナレッジベースで追加のデータコネクタがサポート対象に (プレビュー中)

Amazon Bedrock のナレッジベースを使用すると、基盤モデル (FM) とエージェントは、検索拡張生成 (RAG) のために会社のプライベートデータソースからコンテキスト情報を取得できます。RAG は、FM がより適切で正確かつカスタマイズされた回答を提供するのに役立ちます。

過去数か月にわたって、モデル、ベクトルストア、および FM をナレッジベースに埋め込む選択肢を継続的に追加してきました。

7月10日、Amazon Simple Storage Service (Amazon S3) に加えて、ウェブドメイン、Confluence、Salesforce、SharePoint をデータソースとして RAG アプリケーション (プレビュー中) に接続できるようになったことを発表しました。

ウェブクローラーをデータソースとして選択

ウェブドメイン、Confluence、Salesforce、SharePoint 用の新しいデータソースコネクタ
ウェブドメインを含めることで、RAG アプリケーションに会社のソーシャルメディアフィードなどの公開データへのアクセスを許可し、ユーザー入力への応答の関連性、適時性、包括性を高めることができます。新しいコネクタを使用して、Confluence、Salesforce、SharePoint の既存の企業データソースを RAG アプリケーションに追加できるようになりました。

これがどのように機能するかを見ていきましょう。以下の例では、ウェブクローラーを使用してウェブドメインを追加し、Confluence をデータソースとしてナレッジベースに接続します。Salesforce と SharePoint をデータソースとして接続する場合も、同様のパターンに従います。

ウェブドメインをデータソースとして追加
試してみるには、Amazon Bedrock コンソールに移動してナレッジベースを作成してください。名前や説明などのナレッジベースの詳細を入力し、関連する AWS Identity and Access Management (IAM) 許可を持つ新しいサービスロールを作成するか、既存のサービスロールを使用してください。

ナレッジベースを作成する

次に、使用するデータソースを選択します。[Web Crawler] (ウェブクローラー) を選択します。

Amazon Bedrock のナレッジベースで追加のデータソースを接続する

次のステップでは、ウェブクローラーを設定します。ウェブクローラーデータソースの名前と説明を入力します。次に、ソース URL を定義します。このデモでは、自ら執筆したすべての記事を一覧表示する AWS ニュースブログの著者ページの URL を追加します。クロールしたいウェブサイトのシード URL またはスタートポイント URL を最大 10 個追加できます。

ウェブクローラーをデータソースとして設定する

オプションで、カスタム暗号化設定と、データソースが削除されたときにベクトルストアデータを保持するか削除するかを定義するデータ削除ポリシーを設定できます。ここでは、デフォルトの詳細設定をそのまま使用します。

同期スコープセクションでは、使用する同期ドメインのレベル、1 分あたりにクロールする URL の最大数、特定の URL を含めるか除外する正規表現パターンを設定できます。

同期スコープを定義する

ウェブクローラーデータソースの設定が完了したら、埋め込みモデルを選択し、任意のベクトルストアを設定して、ナレッジベースのセットアップを完了します。作成後にナレッジベースの詳細を確認して、データソースの同期ステータスを監視できます。同期が完了したら、ナレッジベースをテストして、ウェブ URL を引用として含む FM 応答を確認できます。

ナレッジベースをテストする

データソースをプログラムで作成するには、AWS コマンドラインインターフェイス (AWS CLI) または AWS SDK を使用できます。 コード例については、Amazon Bedrock ユーザーガイドをご覧ください。

Confluence をデータソースとして接続する
それでは、ナレッジベース設定のデータソースとして Confluence を選択しましょう。

Amazon Bedrock のナレッジベースを使用して Confluence をデータソースとして接続する

Confluence をデータソースとして設定するには、データソースの名前と説明を再度入力し、ホスティング方法を選択して Confluence URL を入力します。

Confluence に接続するには、ベース認証と OAuth 2.0 認証のどちらかを選択できます。このデモでは、ユーザー名 (Confluence ユーザーアカウントの E メールアドレス) とパスワード (Confluence API トークン) を入力する基本認証を選択します。関連する認証情報を AWS Secrets Manager に保存し、シークレットを選択します。

: シークレット名が「AmazonBedrock-」で始まり、ナレッジベースの IAM サービスロールに Secrets Manager でこのシークレットにアクセスする許可があることを確認してください。

Confluence をデータソースとして設定する

メタデータ設定では、正規表現の包含パターンと除外パターンを使用してクロールするコンテンツの範囲を制御したり、コンテンツのチャンクと解析の戦略を設定したりできます。

Confluence をデータソースとして設定する

Confluence データソースの設定が完了したら、埋め込みモデルを選択し、任意のベクトルストアを設定して、ナレッジベースのセットアップを完了します。

作成後にナレッジベースの詳細を確認して、データソースの同期ステータスを監視できます。同期が完了したら、ナレッジベースをテストできます。このデモでは、Confluence スペースに架空の会議メモをいくつか追加しました。ある会議のアクションアイテムについて聞いてみましょう。

ナレッジベースのデータソースとしての Confluence

Salesforce と SharePoint をデータソースとして接続する方法については、Amazon Bedrock ユーザーガイドをご覧ください。

知っておくべきこと

  • 包含フィルターと除外フィルター – すべてのデータソースが包含フィルターと除外フィルターをサポートしているため、特定のソースからどのデータをクロールするかをきめ細かく制御できます。
  • ウェブクローラー – ウェブクローラーは、自分のウェブページまたはクロール権限のあるウェブページでのみ使用する必要があることに注意してください。

今すぐご利用いただけます
新しいデータソースコネクタは、Amazon Bedrock のナレッジベースが利用できるすべての AWS リージョンで現在ご利用いただけます。詳細と今後の更新については、リージョンリストを確認してください。ナレッジベースの詳細については、Amazon Bedrock 製品ページをご覧ください。料金の詳細については、Amazon Bedrock の料金ページを参照してください。

今すぐ Amazon Bedrock コンソールで新しいデータソースコネクタを試して、フィードバックを AWS re:Post for Amazon Bedrock または通常の AWS 担当者に送信し、生成 AI ビルダーコミュニティ (community.aws) にご参加ください。

– Antje

原文はこちらです。