Amazon Web Services ブログ

Amazon Bedrock モデルの評価が一般的に利用可能になりました

AWS re:Invent 2023 でプレビューした Amazon Bedrock モデルの評価機能が一般公開されました。この新機能により、特定のユースケースに最適な結果が得られる基盤モデルを選択できるようになるため、生成 AI をアプリケーションに組み込むことができます。同僚の Antje が彼女の投稿で説明したようにAmazon Bedrock のユースケースに最適な基盤モデルを評価し、比較し、選択してください):

モデルの評価は、開発のすべての段階で重要です。開発者は、生成系人工知能 (AI) アプリケーションを構築するための評価ツールを利用できるようになりました。プレイグラウンド環境でさまざまなモデルを試すことから始めることができます。反復処理を高速化するには、モデルの自動評価を追加してください。そうすれば、初回リリースや限定リリースの準備をするときに、品質を確保するために人間によるレビューを取り入れることができます。

プレビュー中に多くの素晴らしく有益なフィードバックをいただき、今日のリリースに備えてこの新機能の機能をまとめるために役立ちました。それらについては後ほど説明します。簡単にまとめると、基本的な手順は次のとおりです(完全なウォークスルーについては、 Antje の投稿を参照してください)。

モデル評価ジョブの作成 — 評価方法 (自動または人間) を選択し、使用可能な基礎モデルのいずれかを選択し、タスクタイプを選択し、評価メトリックを選択します。自動評価には正確性、堅牢性、毒性を、人間による評価では任意の指標(親しみやすさ、スタイル、ブランドボイスの遵守など)を選択できます。人間による評価を選択する場合は、独自の作業チームを使用するか、AWS が管理するチームを選択できます。4 つの組み込みタスクタイプと、カスタムタイプ (非表示) があります。

タスクタイプを選択したら、モデルのパフォーマンスを評価するために使用するメトリックとデータセットを選択します。たとえば、テキスト分類を選択すると、独自のデータセットまたは組み込みデータセットを基準にして精度や堅牢性を評価できます。

上記のとおり、組み込みのデータセットを使用することも、 JSON Lines (JSONL) 形式で新しいデータセットを作成することもできます。各エントリにはプロンプトを含める必要があり、カテゴリを含めることができます。参照応答は、すべての人間による評価構成、および自動評価用のタスクタイプとメトリックの一部の組み合わせではオプションです。

{
  "prompt" : "Bobigny is the capitol of",
  "referenceResponse" : "Seine-Saint-Denis",
  "category" : "Capitols"
}

あなた(または地域の専門家)は、組織やユースケースに固有のカスタマーサポートの質問、製品の説明、または販売資料を使用するデータセットを作成できます。組み込みデータセットには、 Real Toxicity BOLD TREX WikiText-2、 Gigaword BoolQ Natural Questions、雑学クイズ、雑学クイズ、QA、女性用電子商取引服レビューなどがあります。 これらのデータセットは、特定の種類のタスクとメトリックをテストするように設計されており、必要に応じて選択できます。

Run Model Evaluation Job — ジョブを開始し、完了するまで待ちます。コンソールから各モデル評価ジョブのステータスを確認できます。また、新しい GetEvaluationJob API 関数を使用してステータスにアクセスすることもできます。

Retrieve and Review Evaluation Report — レポートを取得し、以前に選択した指標と照らし合わせてモデルのパフォーマンスを確認します。繰り返しになりますが、サンプルレポートの詳細については Antje の投稿を参照してください。

New Features for GA
以上説明したところで、4月23日のリリースに備えて追加された機能を見てみましょう。

Improved Job Management — コンソールまたは新しいモデル評価 API を使用して実行中のジョブを停止できるようになりました。

Model Evaluation API — モデル評価ジョブをプログラムで作成および管理できるようになりました。次の機能を使用できます。

  • CreateEvaluationJob — evaluationConfig や inferenceConfig など、API リクエストで指定されたパラメーターを使用してモデル評価ジョブを作成して実行します
  • ListEvaluationJobs — モデル評価ジョブを一覧表示します。オプションで、作成時間、評価ジョブ名、ステータスによるフィルタリングとソートが可能です。
  • GetEvaluationJob — ステータス (進行中完了失敗、停止、停止、停止) を含むモデル評価ジョブのプロパティを取得します。ジョブが完了すると、評価の結果は CreateEvaluationJob に提供された outputDataConfig プロパティで指定された S3 URI に保存されます。
  • StopEvaluationJob — 進行中のジョブを停止します。一度停止したジョブは再開できないため、再実行する場合は新たに作成する必要があります。

このモデル評価 API は、プレビュー中に最もリクエストの多かった機能の1つでした。アプリケーションの開発計画やテスト計画の一部として、大規模な評価を行うために使用できます。

Enhanced Security 顧客管理の KMS キーを使用して評価ジョブデータを暗号化できるようになりました (このオプションを使用しない場合、データは AWS が所有するキーを使用して暗号化されます)。

Access to More Models AI21 Labs Amazon Anthropic Cohere、 Meta の既存のテキストベースのモデルに加えて、Claude 2.1にアクセスできるようになりました。

モデルを選択したら、モデル評価ジョブに使用する推論設定を設定できます。

知っておくべきこと
この素晴らしい新しい Amazon Bedrock 機能について知っておくべきことがいくつかあります。

Pricing — モデル評価中に実行された推論の料金をお支払いいただきます。アルゴリズムによって生成されたスコアには追加料金はかかりません。自分のチームで人間ベースの評価を使用する場合、推論の料金と、完了したタスクごとに0.21ドルを支払います。つまり、人間の作業者は、1つのプロンプトとそれに関連する推論応答の評価を人間評価ユーザーインターフェイスに送信します。AWS マネージドワークチームが実施する評価の価格は、評価にとって重要なデータセット、タスクタイプ、およびメトリックスに基づいています。詳細については、 Amazon Bedrock の料金表ページを参照してください

Regions — モデル評価は、米国東部 (バージニア北部) および米国西部 (オレゴン) の AWS リージョンでご利用いただけます。

More GenAI — 新しい GenAI スペースにアクセスして、4月23日に発表するその他の発表について詳しく学んでください。

Jeff;

原文はこちらです。