Amazon SageMaker Clarify

Modelle evaluieren und Modellvorhersagen erklären

Was ist Amazon SageMaker Clarify?

Amazon SageMaker Clarify bietet speziell entwickelte Tools, mit denen Sie auf der Grundlage von Kennzahlen wie Genauigkeit, Robustheit, Toxizität und Verzerrung bessere Einblicke in Ihre ML-Modelle und -Daten gewinnen können, um die Modellqualität zu verbessern und verantwortungsvolle KI-Initiativen zu unterstützen. Mit dem Aufkommen generativer KI können Datenwissenschaftler und ML-Ingenieure öffentlich verfügbare Basismodelle (FMs) nutzen, um die Markteinführung zu beschleunigen. Damit Sie nicht mehr das richtige FM für Ihren Anwendungsfall evaluieren und auswählen müssen, unterstützt Amazon SageMaker Clarify die FM-Evaluierung, damit Sie innerhalb von Minuten schnell das beste FM für Ihren Anwendungsfall anhand einer Vielzahl von Kriterien für verschiedene Aufgaben bewerten, vergleichen und auswählen können. Es ermöglicht Ihnen, FMs schneller und sicherer einzuführen. Für tabellarische, Computer Vision- und Zeitreihenmodelle bietet SageMaker Clarify die Erklärbarkeit von Modellen während der Modellentwicklung oder der Bereitstellung nach dem Modell. Mithilfe der Berichte über Verzerrungen und Erklärbarkeit können Sie potenzielle Probleme identifizieren und so gezielt Maßnahmen ergreifen, um die Genauigkeit zu verbessern, Verzerrungen zu beseitigen und die Leistung zu steigern.

Vorteile von SageMaker Clarify

Evaluieren Sie FMs für Ihren generativen KI-Anwendungsfall automatisch anhand von Kennzahlen wie Genauigkeit, Robustheit und Toxizität, um Ihre verantwortungsvolle KI-Initiative zu unterstützen. Für Kriterien oder nuancierte Inhalte, die ein ausgeklügeltes menschliches Urteilsvermögen erfordern, können Sie wählen, ob Sie Ihre eigenen Mitarbeiter einsetzen oder eine von AWS bereitgestellte, verwaltete Belegschaft einsetzen, um die Modellantworten zu überprüfen.
Erläutern Sie, wie Eingabe-Features während der Modellentwicklung und Inferenz zu Ihren Modellvorhersagen beitragen. Bewerten Sie Ihr FM während der Anpassung mithilfe der automatischen und menschlichen Bewertungen.
Generieren Sie leicht verständliche Metriken, Berichte und Beispiele während des gesamten FM-Anpassungs- und MLOps-Workflows.
Erkennen Sie potenzielle Verzerrungen und andere Risiken, wie sie in Richtlinien wie ISO 42001 vorgeschrieben sind, während der Datenaufbereitung, der Modellanpassung und in den von Ihnen eingesetzten Modellen.

Basismodelle evaluieren

Bewertungsassistent und Berichte

Um eine Bewertung zu starten, wählen Sie das Modell, die Aufgabe und die Art der Bewertung aus – von Menschen durchgeführte oder automatisch berichtete. Nutzen Sie die Evaluierungsergebnisse, um das beste Modell für Ihren Anwendungsfall auszuwählen und die Auswirkungen Ihrer Modellanpassungstechniken zu quantifizieren, z. B. Prompt-Engineering, Reinforcement Learning from Human Feedback (RLHF), Retrieval-Augmented Generation (RAG) und Supervised Fined Tuning (SFT). Bewertungsberichte fassen die Ergebnisse für mehrere Dimensionen zusammen und ermöglichen so schnelle Vergleiche und Entscheidungen. Detailliertere Berichte enthalten Beispiele für die am besten und am schlechtesten bewerteten Modellergebnisse, so dass Sie sich auf die Bereiche konzentrieren können, die weiter optimiert werden müssen.
Bewertungsassistent und Berichte

Individuelle Anpassung

Legen Sie schnell los mit kuratierten Datensätzen wie CrowS-Pairs, TriviaQA und WikiText und kuratierten Algorithmen wie Bert-Score, Rouge und F1. Sie können Ihre eigenen Prompt-Datensätze und Scoring-Algorithmen speziell für Ihre generative KI-Anwendung anpassen. Die automatische Auswertung ist auch als Open-Source-Bibliothek auf GitHub verfügbar, damit Sie sie überall ausführen können. Beispielnotizbücher zeigen Ihnen, wie Sie programmatisch Auswertungen für beliebige FMs durchführen, einschließlich Modellen, die nicht auf AWS gehostet werden, und wie Sie FM-Auswertungen mit SageMaker MLOps und Governance-Tools wie SageMaker Pipelines, SageMaker Model Registry und SageMaker Model Cards integrieren.
Individuelle Anpassung

Menschliche Evaluationen

Einige Bewertungskriterien sind nuanciert oder subjektiv und erfordern ein menschliches Urteilsvermögen bei der Bewertung. Zusätzlich zu den automatisierten, metrikbasierten Bewertungen können Sie Menschen (entweder Ihre eigenen Mitarbeiter oder ein von AWS verwaltetes Bewertungsteam) bitten, Modellausgaben nach Dimensionen wie Hilfsbereitschaft, Tonfall und Einhaltung der Markensprache zu bewerten. Menschliche Bewerter können auch die Übereinstimmung mit den unternehmensspezifischen Richtlinien, der Nomenklatur und der Markensprache überprüfen. Richten Sie benutzerdefinierte Anweisungen ein, um Ihr Bewertungsteam anzuweisen, wie es die Prompts bewerten soll, z. B. durch eine Rangfolge oder die Angabe von Daumen hoch/runter.
Menschliche Evaluationen

Qualitätsbewertungen modellieren

Bewerten Sie Ihr FM, um festzustellen, ob es qualitativ hochwertige Antworten für Ihre spezifische generative KI-Aufgabe liefert, indem Sie automatische und/oder menschenbasierte Bewertungen durchführen. Bewerten Sie die Modellgenauigkeit mit speziellen Bewertungsalgorithmen wie Bert Score, Rouge und F1, die auf bestimmte generative KI-Aufgaben wie Zusammenfassung, Beantwortung von Fragen (Q&A) und Klassifizierung zugeschnitten sind. Prüfen Sie die semantische Robustheit Ihrer FM-Ausgabe, wenn Sie aufgefordert werden, semantisch konservierende Störungen an den Eingaben vorzunehmen, wie z. B. ButterFingers, zufällige Großschreibung und Entfernen von Leerzeichen.
Qualitätsbewertungen modellieren

Evaluationen der Modellverantwortung

Bewerten Sie das Risiko, dass Ihr FM Stereotypen in den Kategorien Ethnie/Hautfarbe, Geschlecht/Geschlechtsidentität, sexuelle Orientierung, Religion, Alter, Nationalität, Behinderung, körperliche Erscheinung und sozioökonomischer Status kodiert hat, indem Sie automatische und/oder menschliche Bewertungen verwenden. Sie können auch das Risiko toxischer Inhalte bewerten. Diese Auswertungen können auf jede Aufgabe angewendet werden, die die Erstellung von Inhalten beinhaltet, einschließlich der Erstellung von offenen Fragen, Zusammenfassungen und Fragenbeantwortung.

Evaluationen der Modellverantwortung