Amazon Bedrock

Amazon Bedrock の評価

カスタムモデルやインポートされたモデルなどの基盤モデルを評価して、ニーズに合ったモデルを見つけることができます。また、Amazon Bedrock のナレッジベースで、検索またはエンドツーエンドの RAG ワークフローを評価することもできます。

概要

Amazon Bedrock には、生成 AI アプリケーションの導入を促進するための評価ツールが用意されています。モデル評価により、ユースケースの基盤モデルを評価、比較、選択できます。取得関数または取得関数と生成機能を評価して、Amazon Bedrock ナレッジベースまたは独自のカスタム RAG システムに基づいて構築された RAG アプリケーションを本番環境用に準備しましょう。

評価のタイプ

LLM-as-a-Judge を使用して、正確性、完全性、有害性などのメトリクスを含むカスタムプロンプトデータセットでモデル出力を評価します。

BERT Score、F1、その他の完全一致手法などの従来の自然言語アルゴリズムやメトリクスを使用して、組み込みのプロンプトデータセットか独自のデータセットでモデル出力を評価します。

自社のワークフォースとともにモデルの出力を評価するか、組み込みのメトリクスかカスタムメトリクスを使用したカスタムプロンプトデータセットに対する応答の評価を AWS に管理させます。

プロンプトやコンテキストの関連性、コンテキストカバレッジなどのメトリクスを使用して、カスタム RAG システムや Amazon Bedrock ナレッジベースの検索品質を評価します。

カスタム RAG パイプラインまたは Amazon Bedrock ナレッジベースからエンドツーエンドの RAG ワークフローで生成されたコンテンツを評価します。忠実度 (ハルシネーション検知)、正確さ、完全性など、独自のプロンプトとメトリクスを使用します。

エンドツーエンドの RAG ワークフローを評価

取得評価と生成評価を使用して、アプリケーションのエンドツーエンド検索拡張生成 (RAG) 機能を評価しましょう。生成されたコンテンツが正しく完全であり、ハルシネーションを抑えて責任ある AI の原則に従っていることを確認できます。Bedrock ナレッジベースのパフォーマンスを評価するか、カスタム RAG システムから独自の推論応答を用意します。Amazon Bedrock ナレッジベースでジャッジとして使用する LLM を選択するか、カスタム RAG 出力に使用する LLM を選択し、データセットをアップロードして、評価において最も重要なメトリクスを選択するだけです。

RAG システムからの完全かつ適切な取得を確実に行う

RAG 取得評価を使用して、Amazon Bedrock ナレッジベースやカスタム RAG システムのストレージと取得の設定を評価しましょう。取得したコンテンツに関連性があり、そのコンテンツがユーザークエリ全体をカバーしていることを確認できます。ジャッジとして使用する LLM を選択し、Bedrock ナレッジベースを選択して評価するか、カスタム RAG システム取得をプロンプトデータセットに含め、メトリクスを選択するだけです。

FM を評価して、ユースケースに最適なものを選択

Amazon Bedrock のモデル評価では、自動評価と人間による評価を使用して、特定のユースケースに合う FM を選択できます。自動 (プログラムによる) モデル評価では、厳選されたデータセットとカスタムデータセットを使用し、精度、堅牢性、毒性などの事前定義されたメトリクスを提供します。主観的なメトリクスの場合は、Amazon Bedrock を利用して、簡単ないくつかのステップを実行するだけで、人間による評価ワークフローを設定できます。人間による評価では、独自のデータセットを持ち込んで、関連性、スタイル、ブランドボイスとの整合性などのカスタム指標を定義できます。人間による評価ワークフローでは、自社の従業員をレビュー担当者としたり、AWS が管理するチームを関与させたりして、人間による評価を行うことができます。この場合、AWS は熟練した評価者を採用し、お客様に代わって完全なワークフローを管理します。また、LLM-as-a-Judge を使用すると、正確性、完全性、忠実性 (ハルシネーション) などのメトリクス、さらには回答拒否や有害性などの責任ある AI のメトリクスを使用して、データセットに対する質の高い評価を行えます。入力プロンプトデータセットに独自の推論応答を取り込むことで、Bedrock モデルやその他のモデルをどこでも評価できます。