Amazon SageMaker Clarify

評估模型並解釋模型預測

什麼是 Amazon SageMaker Clarify?

Amazon SageMaker Clarify 提供專門建置的工具,可根據準確性、穩定性、毒害和偏差等指標取得 ML 模型和資料的更深入洞察,以改善模型品質並支援負責任的 AI 計畫。隨著生成式 AI 的興起,資料科學家和 ML 工程師可以利用公開可用的基礎模型 (FM) 來加速上市速度。Amazon SageMaker Clarify 支援 FM 評估,協助您在數分鐘內根據不同任務之間的各種條件,快速評估、比較和選取適合您使用案例的 FM,藉以免除為您的使用案例評估和選取正確 FM 的繁重工作。它可讓您更快且放心地採用 FM。針對表格式、電腦視覺和時間序列模型,SageMaker Clarify 在模型開發或模型部署後期間提供模型可解釋性。您可以使用偏差和可解釋性報告來識別潛在的問題,因此可直接改善準確性、移除偏差和提高效能。

SageMaker Clarify 的優勢

使用準確性、穩健性和毒性等指標,自動評估生成式 AI 使用案例的 FM,以支援您負責任的 AI 計畫。對於需要精細人為判斷的條件或細緻內容,您可以選擇使用自己的人力,或使用 AWS 提供的受管理人力來檢閱模型回應。
說明輸入特徵在模型開發和推論期間對模型預測有何貢獻。使用自動和人為評估在自訂期間評估您的 FM。
在 FM 自訂和 MLOps 工作流程中產生易於理解的指標、報告和範例。
在資料準備、模型自訂和已部署模型中,依照 ISO 42001 等指引規定,偵測潛在偏差和其他風險。

評估基礎模型

評估精靈和報告

評估精靈和報告

啟動評估時,請選取模型、工作和評估類型,包括人工評估或自動報告。利用評估結果選擇最適合您使用案例的模型,並量化模型自訂技術的影響,例如提示詞工程、從人類反饋強化學習 (RLHF)、檢索增強生成 (RAG) 和監督微調 (SFT)。評估報告總結跨多個維度的分數,讓您迅速比較並做出決策。更詳細的報告提供最高分和最低分的模型輸出範例,協助您專注於進一步的優化方向。
自訂

自訂

使用精選資料集,例如 CrowS-Pairs、TriviaQA 和 WikiText,以及精選演算法,例如 Bert-Score、Rouge 和 F1,快速入門。您可以為個人的生成式 AI 應用程序自訂提示資料集和評分演算法。自動評估也作為開源庫在 GitHub 上提供,讓您隨處運行。範例筆記本說明如何針對任何以程式設計方式對任何 FM 進行評估,包括未託管在 AWS 上的模型,以及如何將 FM 評估與 SageMaker MLOps 和治理工具整合,例如 SageMaker Pipelines、SageMaker Model Registry 和 SageMaker Model Cards。
人工評估

人工評估

某些評估標準較細微或主觀,需要人為判斷進行評估。除了以指標為基礎的自動化評估外,您還可以請求人類 (您自己的員工或 AWS 管理的評估團隊) 根據幫助性、語氣和品牌聲音等維度評估模型的輸出。人工評估人員還可以檢查是否符合公司特定的指導方針、術語和品牌聲音。設定自訂指示,指導評估團隊如何評估提示,例如透過排名或選擇按讚/倒讚。
模型品質評估

模型品質評估

使用以自動和/或人工為基礎的評估,針對您的 FM 進行是否為特定生成式 AI 任務提供高品質回應評估。使用針對特定生成式 AI 任務 (如摘要、問答 (Q&A) 和分類) 量身定制的評估算法 (如 Bert Score、Rouge 和 F1) 評估模型的準確性。當提示輸入對保留語義有干擾時,例如 ButterFingers (手殘)、隨機大寫和空格新增/刪除時,檢查您 FM 輸出的語義穩定性。
模型責任評估

模型責任評估

使用自動和/或人工評估,針對您的 FM 進行根據種族/膚色、性別/性別認同、性取向、宗教、年齡、國籍、身心障礙、外表和社會經濟狀況等類型的刻板印象風險評估。您還可以評估有害內容的風險。這些評估可套用到任何涉及生成內容的任務,包括開放式產生、摘要和問題回答。

模型預測

SageMaker Experiments 中受訓練模型之特徵重要性圖形的螢幕擷取畫面

解釋模型預測

SageMaker Clarify 與 SageMaker Experiments 整合,提供得分,詳細說明哪些特徵對表格、自然語言處理 (NLP) 和電腦視覺模型的特定輸入的模型預測作用最大。針對表格資料集,SageMaker Clarify 還可以輸出彙總的特徵重要性圖表,提供對模型整體預測程序的洞察。這些詳細資訊可協助判斷特定模型輸入對整體模型行為的影響是否比預期更大。
在 SageMaker Model Monitor 監控特徵重要性的螢幕擷取畫面

監控模型的行為是否發生變化

即時資料的變更可能會暴露模型的新行為。例如,在一個地理區域的資料上訓練的信用風險預測模型,在套用至另一個區域的資料時可能會變更其對各種特徵的重要性。SageMaker Clarify 與 SageMaker Model Monitor 整合,以在輸入功能的重要性發生變化時使用提醒系統 (例如 CloudWatch) 通知您,從而導致模型行為發生變更。

偵測偏差

在 SageMaker Data Wrangler 準備資料期間偏差指標的螢幕擷取畫面

識別資料中的不平衡

SageMaker Clarify 可協助在資料準備期間識別潛在偏差,而無需撰寫程式碼。您指定輸入特徵,例如性別或年齡,SageMaker Clarify 會執行分析任務來偵測這些特徵中的潛在偏差。SageMaker Clarify 接著會提供一份視覺化報告,其中包含對潛在偏差的指標和測量的描述,以便您確定糾正偏差的步驟。在不平衡的情況下,您可以使用 SageMaker Data Wrangler 來平衡您的資料。SageMaker Data Wrangler 提供三種平衡運算子:隨機採樣不足、隨機過度採樣和 SMOTE,以重新平衡不平衡資料集中的資料。

SageMaker Experiments 中受訓練模型之偏差指標的螢幕擷取畫面

檢查受訓練模型是否有偏差

訓練模型後,可透過 Amazon SageMaker Experiments 執行 SageMaker Clarify 偏差分析來檢查模型是否存在潛在偏差,例如對一組產生負面結果的預測頻率高於對另一組產生負面結果的預測。您將指定想測量的模型結果中的偏差輸入特徵,SageMaker 將執行分析並為您提供視覺化報告,確定每個特徵的不同類型的偏差。AWS 開放原始碼方法 Fair Bayesian Optimization 可透過調整模型的超參數來協助減輕偏差。

在 SageMaker Model Monitor 監控偏差的螢幕擷取畫面

監控您的已部署模型是否有偏差

當訓練資料與模型在部署期間看到的即時資料不同時,在部署的機器學習模型中可能會引入或加劇偏差。例如,如果用於訓練模型的抵押貸款利率與目前的抵押貸款利率不同,則用於預測房價的模型的輸出可能會出現偏差。SageMaker Clarify 偏差偵測功能已整合至 Amazon SageMaker Model Monitor,因此當 Amazon SageMaker 偵測到超過特定閾值的偏差時,會自動產生您可以在 Amazon SageMaker Studio 中,以及透過 Amazon CloudWatch 指標和警示查看的指標。

最新消息

  • 日期 (最新到最舊)
找不到結果
1