Amazon SageMaker Clarify

モデルの評価とモデル予測の説明

Amazon SageMaker Clarify とは何ですか?

Amazon SageMaker Clarify は、精度、堅牢性、毒性、偏りなどのメトリックスに基づいて ML モデルとデータについてより深い洞察を得るための専用ツールを提供します。これにより、モデルの品質が向上し、責任ある AI イニシアチブがサポートされます。生成系 AI の台頭により、データサイエンティストや ML エンジニアは、公開されている基盤モデル (FM) を活用して市場投入までの時間を短縮できます。Amazon SageMaker Clarify では、ユースケースに適した FM を評価して選択する手間を省くために、FM 評価をサポートしています。これにより、さまざまなタスクにわたるさまざまな基準に基づいて、ユースケースに最適な FM を数分以内に迅速に評価、比較、選択できます。これにより、FM をより迅速に、自信を持って導入できます。表形式、コンピュータービジョン、時系列モデルの場合、SageMaker Clarify はモデル開発中またはモデルデプロイ後にモデルを説明しやすくします。バイアスレポートと説明可能性レポートを使用して潜在的な問題を特定し、精度の向上、バイアスの除去、パフォーマンスの向上に向けた取り組みを指示できます。

SageMaker Clarify のメリット

正確性、堅牢性、毒性などの指標を使用して、生成系 AI のユースケースに合わせて FM を自動的に評価し、責任ある AI イニシアチブをサポートします。高度な人間による判断を必要とする基準や微妙な内容については、自社の労働力を活用するか、AWS が提供するマネージド人材を使用してモデルレスポンスを確認するかを選択できます。
モデル開発と推論の際に、入力特徴がモデル予測にどのように寄与するかを説明してください。自動評価と人間ベースの評価を使用して、カスタマイズ中に FM を評価します。
FM カスタマイズと MLOps ワークフロー全体を通じて、わかりやすい指標、レポート、例を生成します。
ISO 42001などのガイドラインで規定されているように、データの準備中、モデルのカスタマイズ中、および導入モデルにおける潜在的なバイアスやその他のリスクを検出します。

基盤モデルを評価する (プレビュー)

評価ウィザードとレポート

評価ウィザードとレポート

評価を開始するには、モデル、タスク、評価タイプ (人間ベースまたは自動レポート) を選択します。評価結果を利用して、ユースケースに最適なモデルを選択し、プロンプトエンジニアリング、人間のフィードバックによる強化学習 (RLHF)、検索拡張生成 (RAG)、教師あり微調整 (SFT) などのモデルカスタマイズ手法の影響を定量化します。評価レポートは複数の側面にわたるスコアを要約し、迅速な比較と決定を可能にします。より詳細なレポートには、スコアの高いモデル出力と最も低いスコアのモデル出力の例が示されるため、さらに最適化すべき点に集中できます。
カスタマイズ

カスタマイズ

Crows-Pairs、TriviaQA、WikiTextなどの厳選されたデータセットと、バートスコア、ルージュ、F1などの厳選されたアルゴリズムを使って、すぐに始めましょう。ジェネレーティブ AI アプリケーションに合わせて、独自のプロンプトデータセットとスコアリングアルゴリズムをカスタマイズできます。自動評価は、GitHubのオープンソースライブラリとしても利用できるため、どこでも実行できます。サンプルノートブックには、AWS でホストされていないモデルを含め、あらゆる FM の評価をプログラム的に実行する方法や、FM 評価を SageMaker MLOP や SageMaker パイプライン、SageMaker モデルレジストリ、SageMaker モデルカードなどのガバナンスツールと統合する方法が示されています。
人間ベースの評価

人間ベースの評価

評価基準の中には、微妙な違いや主観的なものもあり、評価には人間の判断が必要です。自動化されたメトリクスベースの評価に加えて、人間 (自社の従業員または AWS が管理する評価チーム) に、有用性、トーン、ブランドボイスの順守などの側面でモデルのアウトプットを評価してもらうこともできます。人間の評価担当者は、企業固有のガイドライン、命名法、ブランドボイスとの整合性をチェックすることもできます。カスタムインストラクションを設定して、評価チームにプロンプトの評価方法を指示します。たとえば、ランク付けや高評価/低評価を示すなどです。
モデル品質評価

モデル品質評価

FMを評価して、自動評価や人間ベースの評価を使用して、特定の生成的AIタスクに対して高品質の応答が得られるかどうかを判断します。要約、質問応答 (Q&A)、分類などの特定のジェネレーティブAIタスクに合わせて調整された、バートスコア、ルージュ、F1などの特定の評価アルゴリズムを使用してモデルの精度を評価します。ButterFingers、ランダムな大文字、空白の追加削除など、入力に対するセマンティックを維持したままの摂動を示すプロンプトが表示されたら、FM 出力のセマンティックな堅牢性を確認してください。
モデル責任評価

モデル責任評価

FMが人種/肌の色、性別/性同一性、性的指向、宗教、年齢、国籍、障害、外見、社会経済的地位のカテゴリーに沿ってステレオタイプをエンコードしたリスクを、自動評価または人間ベースの評価を使用して評価します。有毒物質のリスクを評価することもできます。これらの評価は、自由形式の生成、要約、質疑応答など、コンテンツの生成を伴うあらゆるタスクに適用できます。

モデル予測

SageMaker Experiments でトレーニングされたモデルの特徴の重要度グラフのスクリーンショット

モデル予測を説明する

SageMaker Clarify は SageMaker Experiments と統合されており、表形式、自然言語処理 (NLP)、およびコンピュータビジョンモデルの特定の入力に関するモデル予測に最も寄与する特徴量の詳細を示すスコアを得ることができます。表形式のデータセットの場合は、SageMaker Clarify で特徴量重要度の集約図を出力することもできます。この図によって、モデルの予測プロセス全体についてのインサイトが得られます。これらの詳細は、特定のモデル入力がモデル全体の動作に予想以上の影響を与えるかどうかを判断するのに役立ちます。
SageMaker Model Monitor での特徴の重要度のモニタリングのスクリーンショット

動作の変化についてモデルをモニタリングする

実データが変化すると、新しいモデルの動作が起こることがあります。例えば、ある地理的リージョンのデータでトレーニングされた信用リスク予測モデルでは、他のリージョンのデータに適用された場合、さまざまな特徴量に割り当てられた重要度が変化することがあります。SageMaker Clarify は SageMaker Model Monitor と統合されており、入力特徴量の重要度が変化してモデルの動作が変化した場合に、CloudWatch などのアラートシステムを使用してユーザーに通知されます。

バイアスを検出

SageMaker Data Wrangler でのデータ準備中のバイアスメトリクスのスクリーンショット

データの不均衡を特定する

SageMaker Clarify を使用すると、コードを書かなくてもデータ準備中に潜在的な偏見を特定できます。性別や年齢などの入力特徴量を指定すると、SageMaker Clarify で分析ジョブが実行され、これらの特徴量の潜在的バイアスが検出されます。潜在的バイアスのメトリクスと測定結果の説明を含む視覚的なレポートが SageMaker Clarify から出力されるので、バイアスを修正する手順を特定できます。バランスが悪い場合は、SageMaker Data Wrangler を使用してデータのバランスを取ることができます。SageMaker Data Wrangler には、バランスさせる操作が 3 つあります。ランダムアンダーサンプリング、ランダムオーバーサンプリング、および SMOTE の 3 つのバランシング演算子を提供し、不均衡なデータセットのデータをバランス化します。

SageMaker Experiments でトレーニングされたモデルのバイアスメトリクスのスクリーンショット

トレーニングされたモデルのバイアスを確認する

モデルのトレーニングをした後、 Amazon SageMaker Experiments で SageMaker Clarify バイアス分析を実行して、あるグループに対して他のグループよりも否定的な結果を出すことが多いといった潜在的なバイアスがモデルにあるかどうかを確認できます。モデル結果の偏りを測定したい入力特徴を指定すると、SageMaker が分析を実行して、各特徴のさまざまなタイプの偏りを識別する視覚的なレポートを提供します。AWS のオープンソースメソッドである Fair Bayesian Optimization は、モデルのハイパーパラメータを調整することによってバイアスを軽減するのに役立ちます。

SageMaker Model Monitor でのバイアスモニタリングのスクリーンショット

デプロイしたモデルに偏りがないかを監視する

デプロイされているときにモデルが参照する実データとトレーニングデータが異なる場合に、デプロイされた ML モデルにバイアスが発生したり悪化したりすることがあります。例えば、モデルのトレーニング時の住宅ローン金利と現在の金利が異なると、住宅価格を予測するモデルの出力にバイアスが発生することがあります。SageMaker Clarify のバイアス検出機能は Amazon SageMaker Model Monitor と統合します。これにより、SageMaker が一定のしきい値を超えるバイアスを検出した場合、Amazon SageMaker Studio および Amazon CloudWatch メトリクスとアラームを通じて表示できるメトリクスを自動的に生成します。

最新情報

  • 日付 (新しい順)
結果が見つかりません
1