Amazon SageMaker Clarify

Modelle evaluieren und Modellvorhersagen erklären

Was ist Amazon SageMaker Clarify?

Vorteile von SageMaker Clarify

Evaluieren Sie FMs für Ihren generativen KI-Anwendungsfall automatisch anhand von Kennzahlen wie Genauigkeit, Robustheit und Toxizität, um Ihre verantwortungsvolle KI-Initiative zu unterstützen. Für Kriterien oder nuancierte Inhalte, die ein ausgeklügeltes menschliches Urteilsvermögen erfordern, können Sie wählen, ob Sie Ihre eigenen Mitarbeiter einsetzen oder eine von AWS bereitgestellte, verwaltete Belegschaft einsetzen, um die Modellantworten zu überprüfen.
Erläutern Sie, wie Eingabe-Features während der Modellentwicklung und Inferenz zu Ihren Modellvorhersagen beitragen. Bewerten Sie Ihr FM während der Anpassung mithilfe der automatischen und menschlichen Bewertungen.
Generieren Sie leicht verständliche Metriken, Berichte und Beispiele während des gesamten FM-Anpassungs- und MLOps-Workflows.
Erkennen Sie potenzielle Verzerrungen und andere Risiken, wie sie in Richtlinien wie ISO 42001 vorgeschrieben sind, während der Datenaufbereitung, der Modellanpassung und in den von Ihnen eingesetzten Modellen.

Basismodelle evaluieren

Bewertungsassistent und Berichte

Um eine Bewertung zu starten, wählen Sie das Modell, die Aufgabe und die Art der Bewertung aus – von Menschen durchgeführte oder automatisch berichtete. Nutzen Sie die Evaluierungsergebnisse, um das beste Modell für Ihren Anwendungsfall auszuwählen und die Auswirkungen Ihrer Modellanpassungstechniken zu quantifizieren, z. B. Prompt-Engineering, Reinforcement Learning from Human Feedback (RLHF), Retrieval-Augmented Generation (RAG) und Supervised Fined Tuning (SFT). Bewertungsberichte fassen die Ergebnisse für mehrere Dimensionen zusammen und ermöglichen so schnelle Vergleiche und Entscheidungen. Detailliertere Berichte enthalten Beispiele für die am besten und am schlechtesten bewerteten Modellergebnisse, so dass Sie sich auf die Bereiche konzentrieren können, die weiter optimiert werden müssen.
Bewertungsassistent und Berichte

Individuelle Anpassung

Legen Sie schnell los mit kuratierten Datensätzen wie CrowS-Pairs, TriviaQA und WikiText und kuratierten Algorithmen wie Bert-Score, Rouge und F1. Sie können Ihre eigenen Prompt-Datensätze und Scoring-Algorithmen speziell für Ihre generative KI-Anwendung anpassen. Die automatische Auswertung ist auch als Open-Source-Bibliothek auf GitHub verfügbar, damit Sie sie überall ausführen können. Beispielnotizbücher zeigen Ihnen, wie Sie programmatisch Auswertungen für beliebige FMs durchführen, einschließlich Modellen, die nicht auf AWS gehostet werden, und wie Sie FM-Auswertungen mit SageMaker MLOps und Governance-Tools wie SageMaker Pipelines, SageMaker Model Registry und SageMaker Model Cards integrieren.
Individuelle Anpassung

Menschliche Evaluationen

Einige Bewertungskriterien sind nuanciert oder subjektiv und erfordern ein menschliches Urteilsvermögen bei der Bewertung. Zusätzlich zu den automatisierten, metrikbasierten Bewertungen können Sie Menschen (entweder Ihre eigenen Mitarbeiter oder ein von AWS verwaltetes Bewertungsteam) bitten, Modellausgaben nach Dimensionen wie Hilfsbereitschaft, Tonfall und Einhaltung der Markensprache zu bewerten. Menschliche Bewerter können auch die Übereinstimmung mit den unternehmensspezifischen Richtlinien, der Nomenklatur und der Markensprache überprüfen. Richten Sie benutzerdefinierte Anweisungen ein, um Ihr Bewertungsteam anzuweisen, wie es die Prompts bewerten soll, z. B. durch eine Rangfolge oder die Angabe von Daumen hoch/runter.
Menschliche Evaluationen

Qualitätsbewertungen modellieren

Bewerten Sie Ihr FM, um festzustellen, ob es qualitativ hochwertige Antworten für Ihre spezifische generative KI-Aufgabe liefert, indem Sie automatische und/oder menschenbasierte Bewertungen durchführen. Bewerten Sie die Modellgenauigkeit mit speziellen Bewertungsalgorithmen wie Bert Score, Rouge und F1, die auf bestimmte generative KI-Aufgaben wie Zusammenfassung, Beantwortung von Fragen (Q&A) und Klassifizierung zugeschnitten sind. Prüfen Sie die semantische Robustheit Ihrer FM-Ausgabe, wenn Sie aufgefordert werden, semantisch konservierende Störungen an den Eingaben vorzunehmen, wie z. B. ButterFingers, zufällige Großschreibung und Entfernen von Leerzeichen.
Qualitätsbewertungen modellieren

Evaluationen der Modellverantwortung

Bewerten Sie das Risiko, dass Ihr FM Stereotypen in den Kategorien Ethnie/Hautfarbe, Geschlecht/Geschlechtsidentität, sexuelle Orientierung, Religion, Alter, Nationalität, Behinderung, körperliche Erscheinung und sozioökonomischer Status kodiert hat, indem Sie automatische und/oder menschliche Bewertungen verwenden. Sie können auch das Risiko toxischer Inhalte bewerten. Diese Auswertungen können auf jede Aufgabe angewendet werden, die die Erstellung von Inhalten beinhaltet, einschließlich der Erstellung von offenen Fragen, Zusammenfassungen und Fragenbeantwortung.

Evaluationen der Modellverantwortung

Modellvorhersagen

Modellvorhersagen erklären

SageMaker Clarify ist in SageMaker Experiments integriert, um Bewertungen zu liefern, die Aufschluss darüber geben, welche Funktionen am meisten zu Ihrer Modellvorhersage für eine bestimmte Eingabe für tabellarische, natürliche Sprachverarbeitungs- (NLP) und Computer-Vision-Modelle beigetragen haben. Bei tabellarischen Datensätzen kann SageMaker Clarify auch ein aggregiertes Merkmalsbedeutungsdiagramm ausgeben, das Einblicke in den gesamten Vorhersageprozess des Modells bietet. Anhand dieser Details können Sie feststellen, ob eine bestimmte Modelleingabe einen größeren Einfluss auf das Gesamtverhalten des Modells hat als erwartet.
Screenshot eines Diagramms zur Funktionsbedeutung für ein trainiertes Modell in SageMaker Experiments

Modell auf Verhaltensveränderungen überwachen

Veränderungen in den Live-Daten können ein neues Verhalten Ihres Modells auslösen. Ein Modell zur Vorhersage des Kreditrisikos, das auf den Daten einer geografischen Region trainiert wurde, könnte beispielsweise die Bedeutung, die es den verschiedenen Merkmalen zuweist, ändern, wenn es auf die Daten einer anderen Region angewendet wird. SageMaker Clarify ist in SageMaker Model Monitor integriert, um Sie mit Hilfe von Warnsystemen wie CloudWatch zu benachrichtigen, wenn sich die Wichtigkeit von Eingabemerkmalen ändert und sich dadurch das Modellverhalten verändert.
Screenshot der Funktionsbedeutungsüberwachung in SageMaker Model Monitor