Amazon Bedrockでのユースケースに最適な基盤モデルの評価、比較、選択 (プレビュー)

Amazon Bedrock でのユースケースに最適な基盤モデル (FM) を評価、比較、選択できるようになったことを嬉しく思います。Amazon Bedrock でのモデル評価は、11月29日よりプレビュー版としてご利用いただけます。

Amazon Bedrock では、自動評価と人間による評価を選択できます。精度、堅牢性、毒性などの事前定義されたメトリクスを使用して自動評価を使用できます。親しみやすさ、スタイル、ブランドボイスとの整合性など、主観的な指標やカスタム指標については、数回クリックするだけで人間による評価ワークフローを設定できます。

モデルの評価は、開発のすべての段階で重要です。開発者は、生成系人工知能 (AI) アプリケーションを構築するための評価ツールを利用できるようになりました。プレイグラウンド環境でさまざまなモデルを試すことから始めることができます。反復処理を高速化するには、モデルの自動評価を追加してください。そうすれば、初回リリースや限定リリースの準備をするときに、品質を確保するために人間によるレビューを取り入れることができます。

Amazon Bedrock でのモデル評価について簡単に説明します。

自動モデル評価
自動モデル評価により、独自のデータを使用したり、組み込みのキュレーションされたデータセットや事前定義されたメトリクスを使用して、コンテンツの要約、質問と回答、テキスト分類、テキスト生成などの特定のタスクを行うことができます。これにより、独自のモデル評価ベンチマークを設計して実行するという面倒な作業が不要になります。

はじめに、Amazon Bedrock コンソールに移動し、左側のメニューの [評価とデプロイ] で [モデル評価] を選択します。新しいモデル評価を作成し、[自動] を選択します。

次に、セットアップダイアログに従って、評価する FM とタスクのタイプ (テキスト要約など) を選択します。評価指標を選択し、組み込みまたは独自のデータセットを指定します。

独自のデータセットを使用する場合は、そのデータセットが JSON Lines 形式であること、および各行に、評価対象のモデルディメンションについてモデルを評価するキーと値のペアがすべて含まれていることを確認してください。たとえば、質疑応答タスクでモデルを評価する場合は、データを次のようにフォーマットします (カテゴリはオプション)。

{"referenceResponse":"Cantal","category":"Capitals","prompt":"Aurillac is the capital of"}
{"referenceResponse":"Bamiyan Province","category":"Capitals","prompt":"Bamiyan city is the capital of"}
{"referenceResponse":"Abkhazia","category":"Capitals","prompt":"Sokhumi is the capital of"}
...

次に、評価ジョブを作成して実行し、モデルのタスク固有のパフォーマンスを把握します。評価ジョブが完了したら、モデル評価レポートで結果を確認できます。

ヒューマンモデル評価
人間による評価については、Amazon Bedrock に数回のクリックで人間によるレビューワークフローを設定させることができます。独自のデータセットを使用して、関連性、スタイル、ブランドボイスとの整合性などのカスタム評価指標を定義できます。また、社内チームをレビュー担当者として活用するか、AWS 管理チームを雇うかを選択できます。これにより、人間による評価ワークフローの構築と運用の面倒な作業が不要になります。

はじめに、新しいモデル評価を作成し、[人間: 自分のチームを結成] または [人間: AWS 管理チーム] を選択します。

人間による評価に AWS マネージドチームを選択する場合は、タスクタイプ、作業チームの専門知識、プロンプトのおおよその数など、モデル評価のニーズを連絡先情報とともに説明してください。次のステップでは、AWS のエキスパートから連絡があり、モデル評価プロジェクトの要件についてより詳しく話し合うことになります。レビュー後、チームはカスタム見積もりとプロジェクトタイムラインを共有します。

自分のチームを編成する場合は、セットアップダイアログに従って、評価したい FM とタスクの種類 (テキスト要約など) を選択します。次に、評価指標を選択し、テストデータセットをアップロードして、作業チームを設定します。

人間による評価を行うには、前に示したサンプルデータを次のように JSON Lines 形式でフォーマットします (カテゴリと referenceResponse はオプションです)。

{"prompt":"Aurillac is the capital of","referenceResponse":"Cantal","category":"Capitals"}
{"prompt":"Bamiyan city is the capital of","referenceResponse":"Bamiyan Province","category":"Capitals"}
{"prompt":"Senftenberg is the capital of","referenceResponse":"Oberspreewald-Lausitz","category":"Capitals"}

人間による評価が完了すると、Amazon Bedrock は、選択したメトリクスに対するモデルのパフォーマンスを含む評価レポートを生成します。

留意点
知っておくべき重要な事項をいくつか次に示します。

モデルサポート — プレビュー中に、Amazon Bedrock で利用できるテキストベースの大規模言語モデル (LLM) を評価および比較できます。プレビュー中に、自動評価ジョブごとに 1 つのモデルを選択し、自分のチームを使用して人間評価ジョブごとに最大 2 つのモデルを選択できます。AWS マネージドチームを使用して人間による評価を行う場合は、カスタムプロジェクト要件を指定できます。

料金 — プレビュー中、AWS は評価の実行に必要なモデル推論 (オンデマンド価格用の処理済み入力トークンと出力トークン) に対してのみ料金を請求します。人間による評価や自動評価には別途料金はかかりません。Amazon Bedrock の価格設定にはすべての詳細が記載されています。

プレビューが公開中
お客様の作業チームによる自動評価と人間による評価が、本日米国東部 (バージニア北部) と米国西部 (オレゴン) の AWS リージョンのパブリックプレビューでご利用いただけるようになりました。AWS マネージドチームによる人間による評価は、米国東部 (バージニア北部) の AWS リージョンのパブリックプレビューでご利用いただけます。詳細については、Amazon Bedrock 開発者エクスペリエンスのウェブページとユーザーガイドをご覧ください。

開始方法
AWS マネジメントコンソールにログインして、今すぐ Amazon Bedrock でモデル評価を試してみましょう。

– Antje

原文はこちらです。

Amazon Web Services ブログ

Amazon Bedrockでのユースケースに最適な基盤モデルの評価、比較、選択 (プレビュー)

お役立ちリンク

フォローお願いいたします

学ぶ

リソース

デベロッパー

ヘルプ