投稿日: Nov 29, 2023

Amazon Bedrock のモデル評価では、ユースケースに最適な基盤モデルを評価、比較、選択することができます。Amazon Bedrock では、自動評価と人間による評価を選択できます。精度、堅牢性、毒性などの事前定義されたメトリクスを使用して自動評価を使用できます。親しみやすさ、スタイル、ブランド音声との整合性など、主観的なメトリクスやカスタムメトリクスについては、数回クリックするだけで人間による評価のワークフローを設定できます。人間による評価のワークフローでは、自社の従業員や AWS が管理するチームをレビュー担当者として活用できます。モデル評価には、厳選されたデータセットが組み込まれていますが、独自のデータセットを持ち込むこともできます。 

Amazon Bedrock のインタラクティブなインターフェイスで、モデルの評価のガイドが行われます。必要なのは、人間による評価か自動評価を選択し、タスクのタイプとメトリクスを選択して、プロンプトデータセットをアップロードすることだけです。その後、Amazon Bedrock が評価を実行してレポートを生成するので、選択したメトリクスに対してモデルがどのように機能したかを簡単に理解し、ユースケースに適したものを選択できます。 

Amazon Bedrock でのモデル評価は、米国東部 (バージニア北部) と米国西部 (オレゴン) の AWS リージョンでプレビューとしてご利用いただけます。詳細については、AWS リージョン表をご覧ください。

Amazon Bedrock でのモデル評価の詳細については、Amazon Bedrock のデベロッパーエクスペリエンスのウェブページをご覧ください。使用を開始するには、AWS マネジメントコンソールで Amazon Bedrock にサインインしてください。