Was ist Amazon SageMaker Clarify?
Vorteile von SageMaker Clarify
Basismodelle evaluieren
Bewertungsassistent und Berichte
Um eine Bewertung zu starten, wählen Sie das Modell, die Aufgabe und die Art der Bewertung aus – von Menschen durchgeführte oder automatisch berichtete. Nutzen Sie die Evaluierungsergebnisse, um das beste Modell für Ihren Anwendungsfall auszuwählen und die Auswirkungen Ihrer Modellanpassungstechniken zu quantifizieren, z. B. Prompt-Engineering, Reinforcement Learning from Human Feedback (RLHF), Retrieval-Augmented Generation (RAG) und Supervised Fined Tuning (SFT). Bewertungsberichte fassen die Ergebnisse für mehrere Dimensionen zusammen und ermöglichen so schnelle Vergleiche und Entscheidungen. Detailliertere Berichte enthalten Beispiele für die am besten und am schlechtesten bewerteten Modellergebnisse, so dass Sie sich auf die Bereiche konzentrieren können, die weiter optimiert werden müssen.
Individuelle Anpassung
Legen Sie schnell los mit kuratierten Datensätzen wie CrowS-Pairs, TriviaQA und WikiText und kuratierten Algorithmen wie Bert-Score, Rouge und F1. Sie können Ihre eigenen Prompt-Datensätze und Scoring-Algorithmen speziell für Ihre generative KI-Anwendung anpassen. Die automatische Auswertung ist auch als Open-Source-Bibliothek auf GitHub verfügbar, damit Sie sie überall ausführen können. Beispielnotizbücher zeigen Ihnen, wie Sie programmatisch Auswertungen für beliebige FMs durchführen, einschließlich Modellen, die nicht auf AWS gehostet werden, und wie Sie FM-Auswertungen mit SageMaker MLOps und Governance-Tools wie SageMaker Pipelines, SageMaker Model Registry und SageMaker Model Cards integrieren.
Menschliche Evaluationen
Einige Bewertungskriterien sind nuanciert oder subjektiv und erfordern ein menschliches Urteilsvermögen bei der Bewertung. Zusätzlich zu den automatisierten, metrikbasierten Bewertungen können Sie Menschen (entweder Ihre eigenen Mitarbeiter oder ein von AWS verwaltetes Bewertungsteam) bitten, Modellausgaben nach Dimensionen wie Hilfsbereitschaft, Tonfall und Einhaltung der Markensprache zu bewerten. Menschliche Bewerter können auch die Übereinstimmung mit den unternehmensspezifischen Richtlinien, der Nomenklatur und der Markensprache überprüfen. Richten Sie benutzerdefinierte Anweisungen ein, um Ihr Bewertungsteam anzuweisen, wie es die Prompts bewerten soll, z. B. durch eine Rangfolge oder die Angabe von Daumen hoch/runter.
Qualitätsbewertungen modellieren
Bewerten Sie Ihr FM, um festzustellen, ob es qualitativ hochwertige Antworten für Ihre spezifische generative KI-Aufgabe liefert, indem Sie automatische und/oder menschenbasierte Bewertungen durchführen. Bewerten Sie die Modellgenauigkeit mit speziellen Bewertungsalgorithmen wie Bert Score, Rouge und F1, die auf bestimmte generative KI-Aufgaben wie Zusammenfassung, Beantwortung von Fragen (Q&A) und Klassifizierung zugeschnitten sind. Prüfen Sie die semantische Robustheit Ihrer FM-Ausgabe, wenn Sie aufgefordert werden, semantisch konservierende Störungen an den Eingaben vorzunehmen, wie z. B. ButterFingers, zufällige Großschreibung und Entfernen von Leerzeichen.
Evaluationen der Modellverantwortung
Bewerten Sie das Risiko, dass Ihr FM Stereotypen in den Kategorien Ethnie/Hautfarbe, Geschlecht/Geschlechtsidentität, sexuelle Orientierung, Religion, Alter, Nationalität, Behinderung, körperliche Erscheinung und sozioökonomischer Status kodiert hat, indem Sie automatische und/oder menschliche Bewertungen verwenden. Sie können auch das Risiko toxischer Inhalte bewerten. Diese Auswertungen können auf jede Aufgabe angewendet werden, die die Erstellung von Inhalten beinhaltet, einschließlich der Erstellung von offenen Fragen, Zusammenfassungen und Fragenbeantwortung.
Modellvorhersagen
Modellvorhersagen erklären
SageMaker Clarify ist in SageMaker Experiments integriert, um Bewertungen zu liefern, die Aufschluss darüber geben, welche Funktionen am meisten zu Ihrer Modellvorhersage für eine bestimmte Eingabe für tabellarische, natürliche Sprachverarbeitungs- (NLP) und Computer-Vision-Modelle beigetragen haben. Bei tabellarischen Datensätzen kann SageMaker Clarify auch ein aggregiertes Merkmalsbedeutungsdiagramm ausgeben, das Einblicke in den gesamten Vorhersageprozess des Modells bietet. Anhand dieser Details können Sie feststellen, ob eine bestimmte Modelleingabe einen größeren Einfluss auf das Gesamtverhalten des Modells hat als erwartet.
Modell auf Verhaltensveränderungen überwachen
Veränderungen in den Live-Daten können ein neues Verhalten Ihres Modells auslösen. Ein Modell zur Vorhersage des Kreditrisikos, das auf den Daten einer geografischen Region trainiert wurde, könnte beispielsweise die Bedeutung, die es den verschiedenen Merkmalen zuweist, ändern, wenn es auf die Daten einer anderen Region angewendet wird. SageMaker Clarify ist in SageMaker Model Monitor integriert, um Sie mit Hilfe von Warnsystemen wie CloudWatch zu benachrichtigen, wenn sich die Wichtigkeit von Eingabemerkmalen ändert und sich dadurch das Modellverhalten verändert.