Amazon SageMaker Clarify

Modelle evaluieren und Modellvorhersagen erklären

Was ist Amazon SageMaker Clarify?

Amazon SageMaker Clarify bietet speziell entwickelte Tools, mit denen Sie auf der Grundlage von Kennzahlen wie Genauigkeit, Robustheit, Toxizität und Verzerrung bessere Einblicke in Ihre ML-Modelle und -Daten gewinnen können, um die Modellqualität zu verbessern und verantwortungsvolle KI-Initiativen zu unterstützen. Mit dem Aufkommen generativer KI können Datenwissenschaftler und ML-Ingenieure öffentlich verfügbare Basismodelle (FMs) nutzen, um die Markteinführung zu beschleunigen. Damit Sie nicht mehr das richtige FM für Ihren Anwendungsfall evaluieren und auswählen müssen, unterstützt Amazon SageMaker Clarify die FM-Evaluierung, damit Sie innerhalb von Minuten schnell das beste FM für Ihren Anwendungsfall anhand einer Vielzahl von Kriterien für verschiedene Aufgaben bewerten, vergleichen und auswählen können. Es ermöglicht Ihnen, FMs schneller und sicherer einzuführen. Für tabellarische, Computer Vision- und Zeitreihenmodelle bietet SageMaker Clarify die Erklärbarkeit von Modellen während der Modellentwicklung oder der Bereitstellung nach dem Modell. Mithilfe der Berichte über Verzerrungen und Erklärbarkeit können Sie potenzielle Probleme identifizieren und so gezielt Maßnahmen ergreifen, um die Genauigkeit zu verbessern, Verzerrungen zu beseitigen und die Leistung zu steigern.

Vorteile von SageMaker Clarify

Evaluieren Sie FMs für Ihren generativen KI-Anwendungsfall automatisch anhand von Kennzahlen wie Genauigkeit, Robustheit und Toxizität, um Ihre verantwortungsvolle KI-Initiative zu unterstützen. Für Kriterien oder nuancierte Inhalte, die ein ausgeklügeltes menschliches Urteilsvermögen erfordern, können Sie wählen, ob Sie Ihre eigenen Mitarbeiter einsetzen oder eine von AWS bereitgestellte, verwaltete Belegschaft einsetzen, um die Modellantworten zu überprüfen.
Erläutern Sie, wie Eingabe-Features während der Modellentwicklung und Inferenz zu Ihren Modellvorhersagen beitragen. Bewerten Sie Ihr FM während der Anpassung mithilfe der automatischen und menschlichen Bewertungen.
Generieren Sie leicht verständliche Metriken, Berichte und Beispiele während des gesamten FM-Anpassungs- und MLOps-Workflows.
Erkennen Sie potenzielle Verzerrungen und andere Risiken, wie sie in Richtlinien wie ISO 42001 vorgeschrieben sind, während der Datenaufbereitung, der Modellanpassung und in den von Ihnen eingesetzten Modellen.

Basismodelle evaluieren

Bewertungsassistent und Berichte

Bewertungsassistent und Berichte

Um eine Bewertung zu starten, wählen Sie das Modell, die Aufgabe und die Art der Bewertung aus – von Menschen durchgeführte oder automatisch berichtete. Nutzen Sie die Evaluierungsergebnisse, um das beste Modell für Ihren Anwendungsfall auszuwählen und die Auswirkungen Ihrer Modellanpassungstechniken zu quantifizieren, z. B. Prompt-Engineering, Reinforcement Learning from Human Feedback (RLHF), Retrieval-Augmented Generation (RAG) und Supervised Fined Tuning (SFT). Bewertungsberichte fassen die Ergebnisse für mehrere Dimensionen zusammen und ermöglichen so schnelle Vergleiche und Entscheidungen. Detailliertere Berichte enthalten Beispiele für die am besten und am schlechtesten bewerteten Modellergebnisse, so dass Sie sich auf die Bereiche konzentrieren können, die weiter optimiert werden müssen.
Individuelle Anpassung

Individuelle Anpassung

Legen Sie schnell los mit kuratierten Datensätzen wie CrowS-Pairs, TriviaQA und WikiText und kuratierten Algorithmen wie Bert-Score, Rouge und F1. Sie können Ihre eigenen Prompt-Datensätze und Scoring-Algorithmen speziell für Ihre generative KI-Anwendung anpassen. Die automatische Auswertung ist auch als Open-Source-Bibliothek auf GitHub verfügbar, damit Sie sie überall ausführen können. Beispielnotizbücher zeigen Ihnen, wie Sie programmatisch Auswertungen für beliebige FMs durchführen, einschließlich Modellen, die nicht auf AWS gehostet werden, und wie Sie FM-Auswertungen mit SageMaker MLOps und Governance-Tools wie SageMaker Pipelines, SageMaker Model Registry und SageMaker Model Cards integrieren.
Menschliche Evaluationen

Menschliche Evaluationen

Einige Bewertungskriterien sind nuanciert oder subjektiv und erfordern ein menschliches Urteilsvermögen bei der Bewertung. Zusätzlich zu den automatisierten, metrikbasierten Bewertungen können Sie Menschen (entweder Ihre eigenen Mitarbeiter oder ein von AWS verwaltetes Bewertungsteam) bitten, Modellausgaben nach Dimensionen wie Hilfsbereitschaft, Tonfall und Einhaltung der Markensprache zu bewerten. Menschliche Bewerter können auch die Übereinstimmung mit den unternehmensspezifischen Richtlinien, der Nomenklatur und der Markensprache überprüfen. Richten Sie benutzerdefinierte Anweisungen ein, um Ihr Bewertungsteam anzuweisen, wie es die Prompts bewerten soll, z. B. durch eine Rangfolge oder die Angabe von Daumen hoch/runter.
Qualitätsbewertungen modellieren

Qualitätsbewertungen modellieren

Bewerten Sie Ihr FM, um festzustellen, ob es qualitativ hochwertige Antworten für Ihre spezifische generative KI-Aufgabe liefert, indem Sie automatische und/oder menschenbasierte Bewertungen durchführen. Bewerten Sie die Modellgenauigkeit mit speziellen Bewertungsalgorithmen wie Bert Score, Rouge und F1, die auf bestimmte generative KI-Aufgaben wie Zusammenfassung, Beantwortung von Fragen (Q&A) und Klassifizierung zugeschnitten sind. Prüfen Sie die semantische Robustheit Ihrer FM-Ausgabe, wenn Sie aufgefordert werden, semantisch konservierende Störungen an den Eingaben vorzunehmen, wie z. B. ButterFingers, zufällige Großschreibung und Entfernen von Leerzeichen.
Evaluationen der Modellverantwortung

Evaluationen der Modellverantwortung

Bewerten Sie das Risiko, dass Ihr FM Stereotypen in den Kategorien Ethnie/Hautfarbe, Geschlecht/Geschlechtsidentität, sexuelle Orientierung, Religion, Alter, Nationalität, Behinderung, körperliche Erscheinung und sozioökonomischer Status kodiert hat, indem Sie automatische und/oder menschliche Bewertungen verwenden. Sie können auch das Risiko toxischer Inhalte bewerten. Diese Auswertungen können auf jede Aufgabe angewendet werden, die die Erstellung von Inhalten beinhaltet, einschließlich der Erstellung von offenen Fragen, Zusammenfassungen und Fragenbeantwortung.

Modellvorhersagen

Screenshot eines Diagramms zur Funktionsbedeutung für ein trainiertes Modell in SageMaker Experiments

Modellvorhersagen erklären

SageMaker Clarify ist in SageMaker Experiments integriert, um Bewertungen zu liefern, die Aufschluss darüber geben, welche Funktionen am meisten zu Ihrer Modellvorhersage für eine bestimmte Eingabe für tabellarische, natürliche Sprachverarbeitungs- (NLP) und Computer-Vision-Modelle beigetragen haben. Bei tabellarischen Datensätzen kann SageMaker Clarify auch ein aggregiertes Merkmalsbedeutungsdiagramm ausgeben, das Einblicke in den gesamten Vorhersageprozess des Modells bietet. Anhand dieser Details können Sie feststellen, ob eine bestimmte Modelleingabe einen größeren Einfluss auf das Gesamtverhalten des Modells hat als erwartet.
Screenshot der Funktionsbedeutungsüberwachung in SageMaker Model Monitor

Modell auf Verhaltensveränderungen überwachen

Veränderungen in den Live-Daten können ein neues Verhalten Ihres Modells auslösen. Ein Modell zur Vorhersage des Kreditrisikos, das auf den Daten einer geografischen Region trainiert wurde, könnte beispielsweise die Bedeutung, die es den verschiedenen Merkmalen zuweist, ändern, wenn es auf die Daten einer anderen Region angewendet wird. SageMaker Clarify ist in SageMaker Model Monitor integriert, um Sie mit Hilfe von Warnsystemen wie CloudWatch zu benachrichtigen, wenn sich die Wichtigkeit von Eingabemerkmalen ändert und sich dadurch das Modellverhalten verändert.

Abweichungen erkennen

Screenshot von Abweichungsmetriken während der Datenvorbereitung in SageMaker Data Wrangler

Unausgeglichenheiten in den Daten identifizieren

SageMaker Clarify hilft dabei, potenzielle Verzerrungen bei der Datenvorbereitung zu erkennen, ohne Code schreiben zu müssen. Sie geben Eingabemerkmale wie Geschlecht oder Alter an, und SageMaker Clarify führt einen Analyseauftrag aus, um mögliche Abweichungen in diesen Merkmalen zu erkennen. SageMaker Clarify liefert dann einen visuellen Bericht mit einer Beschreibung der Metriken und Messungen potenzieller Abweichungen, sodass Sie Schritte zur Beseitigung der Abweichungen festlegen können. Bei Unausgewogenheiten können Sie SageMaker Data Wrangler verwenden, um Ihre Daten abzugleichen. SageMaker Data Wrangler bietet drei Ausgleichsoperatoren: zufälliges Undersampling, zufälliges Oversampling und SMOTE, um die Daten in Ihren unausgewogenen Datensätzen wieder auszugleichen.

Screenshot von Abweichungsmetriken in einem trainierten Modell in SageMaker Experiments

Abweichungen in trainierten Modellen prüfen

Nachdem Sie Ihr Modell trainiert haben, können Sie eine SageMaker-Clarify-Verzerrungsanalyse über Amazon SageMaker Experiments durchführen, um Ihr Modell auf mögliche Verzerrungen zu überprüfen, z. B. auf Vorhersagen, die für eine Gruppe häufiger ein negatives Ergebnis liefern als für eine andere. Sie geben Eingabe-Features an, in Bezug auf die Sie Verzerrungen in den Modellergebnissen messen möchten, und SageMaker führt eine Analyse durch und stellt Ihnen einen visuellen Bericht zur Verfügung, der die verschiedenen Arten von Verzerrungen für jedes Feature identifiziert. Die Open-Source-Methode Fair Bayesian Optimization von AWS kann dazu beitragen, Abweichungen durch die Abstimmung der Hyperparameter eines Modells abzuschwächen.

Screenshot der Abweichungsüberwachung in SageMaker Model Monitor

Ihr eingesetztes Modell auf Verzerrungen überwachen

Abweichungen können in eingesetzten ML-Modellen entstehen oder sich verschlimmern, wenn sich die Trainingsdaten von den Daten unterscheiden, die das Modell während der Bereitstellung sieht. So können beispielsweise die Ergebnisse eines Modells zur Vorhersage von Immobilienpreisen abweichen, wenn die Hypothekenzinsen, die zum Trainieren des Modells verwendet wurden, von den aktuellen Hypothekenzinsen abweichen. Die Funktionen von SageMaker Clarify zur Erkennung von Abweichungen sind in Amazon SageMaker Model Monitor integriert, sodass SageMaker automatisch Metriken generiert, wenn es eine Abweichung über einen bestimmten Schwellenwert hinaus erkennt, die Sie in Amazon SageMaker Studio und über Amazon-CloudWatch-Metriken und -Alarme anzeigen können.

Neuerungen

  • Datum (neuestes bis ältestes)
Keine Ergebnisse gefunden
1