Amazon SageMaker Clarify

モデルの評価とモデル予測の説明

Amazon SageMaker Clarify とは何ですか?

SageMaker Clarify のメリット

正確性、堅牢性、毒性などの指標を使用して、生成系 AI のユースケースに合わせて FM を自動的に評価し、責任ある AI イニシアチブをサポートします。高度な人間による判断を必要とする基準や微妙な内容については、自社の労働力を活用するか、AWS が提供するマネージド人材を使用してモデルレスポンスを確認するかを選択できます。
モデル開発と推論の際に、入力特徴がモデル予測にどのように寄与するかを説明してください。自動評価と人間ベースの評価を使用して、カスタマイズ中に FM を評価します。
FM カスタマイズと MLOps ワークフロー全体を通じて、わかりやすい指標、レポート、例を生成します。
ISO 42001などのガイドラインで規定されているように、データの準備中、モデルのカスタマイズ中、および導入モデルにおける潜在的なバイアスやその他のリスクを検出します。

基盤モデルを評価する

評価ウィザードとレポート

評価を開始するには、モデル、タスク、評価タイプ (人間ベースまたは自動レポート) を選択します。評価結果を利用して、ユースケースに最適なモデルを選択し、プロンプトエンジニアリング、人間のフィードバックによる強化学習 (RLHF)、検索拡張生成 (RAG)、教師あり微調整 (SFT) などのモデルカスタマイズ手法の影響を定量化します。評価レポートは複数の側面にわたるスコアを要約し、迅速な比較と決定を可能にします。より詳細なレポートには、スコアの高いモデル出力と最も低いスコアのモデル出力の例が示されるため、さらに最適化すべき点に集中できます。
評価ウィザードとレポート

カスタマイズ

Crows-Pairs、TriviaQA、WikiTextなどの厳選されたデータセットと、バートスコア、ルージュ、F1などの厳選されたアルゴリズムを使って、すぐに始めましょう。ジェネレーティブ AI アプリケーションに合わせて、独自のプロンプトデータセットとスコアリングアルゴリズムをカスタマイズできます。自動評価は、GitHubのオープンソースライブラリとしても利用できるため、どこでも実行できます。サンプルノートブックには、AWS でホストされていないモデルを含め、あらゆる FM の評価をプログラム的に実行する方法や、FM 評価を SageMaker MLOP や SageMaker パイプライン、SageMaker モデルレジストリ、SageMaker モデルカードなどのガバナンスツールと統合する方法が示されています。
カスタマイズ

人間ベースの評価

評価基準の中には、微妙な違いや主観的なものもあり、評価には人間の判断が必要です。自動化されたメトリクスベースの評価に加えて、人間 (自社の従業員または AWS が管理する評価チーム) に、有用性、トーン、ブランドボイスの順守などの側面でモデルのアウトプットを評価してもらうこともできます。人間の評価担当者は、企業固有のガイドライン、命名法、ブランドボイスとの整合性をチェックすることもできます。カスタムインストラクションを設定して、評価チームにプロンプトの評価方法を指示します。たとえば、ランク付けや高評価/低評価を示すなどです。
人間ベースの評価

モデル品質評価

FMを評価して、自動評価や人間ベースの評価を使用して、特定の生成的AIタスクに対して高品質の応答が得られるかどうかを判断します。要約、質問応答 (Q&A)、分類などの特定のジェネレーティブAIタスクに合わせて調整された、バートスコア、ルージュ、F1などの特定の評価アルゴリズムを使用してモデルの精度を評価します。ButterFingers、ランダムな大文字、空白の追加削除など、入力に対するセマンティックを維持したままの摂動を示すプロンプトが表示されたら、FM 出力のセマンティックな堅牢性を確認してください。
モデル品質評価

モデル責任評価

FMが人種/肌の色、性別/性同一性、性的指向、宗教、年齢、国籍、障害、外見、社会経済的地位のカテゴリーに沿ってステレオタイプをエンコードしたリスクを、自動評価または人間ベースの評価を使用して評価します。有毒物質のリスクを評価することもできます。これらの評価は、自由形式の生成、要約、質疑応答など、コンテンツの生成を伴うあらゆるタスクに適用できます。

モデル責任評価

モデル予測

モデル予測を説明する

SageMaker Clarify は SageMaker Experiments と統合されており、表形式、自然言語処理 (NLP)、およびコンピュータビジョンモデルの特定の入力に関するモデル予測に最も寄与する特徴量の詳細を示すスコアを得ることができます。表形式のデータセットの場合は、SageMaker Clarify で特徴量重要度の集約図を出力することもできます。この図によって、モデルの予測プロセス全体についてのインサイトが得られます。これらの詳細は、特定のモデル入力がモデル全体の動作に予想以上の影響を与えるかどうかを判断するのに役立ちます。
SageMaker Experiments でトレーニングされたモデルの特徴の重要度グラフのスクリーンショット

動作の変化についてモデルをモニタリングする

実データが変化すると、新しいモデルの動作が起こることがあります。例えば、ある地理的リージョンのデータでトレーニングされた信用リスク予測モデルでは、他のリージョンのデータに適用された場合、さまざまな特徴量に割り当てられた重要度が変化することがあります。SageMaker Clarify は SageMaker Model Monitor と統合されており、入力特徴量の重要度が変化してモデルの動作が変化した場合に、CloudWatch などのアラートシステムを使用してユーザーに通知されます。
SageMaker Model Monitor での特徴の重要度のモニタリングのスクリーンショット