RAG- und Modellbewertungen in Amazon Bedrock unterstützen jetzt benutzerdefinierte Metriken
Amazon-Bedrock-Bewertungen ermöglicht es Ihnen, Basismodelle und RAG-Systeme (Retrieval-Augmented Generation) zu evaluieren, ungeachtet davon, ob diese auf Amazon Bedrock oder Multicloud- und On-Premise-Bereitstellungen gehostet werden. Bedrock-Bewertungen bietet menschengestützte Bewertungen, programmatische Bewertungen wie BERTScore, F1 und andere Exact Match-Metriken sowie LLM-as-a-Judge sowohl für die Modell- als auch für die RAG-Bewertung. Sowohl bei der Modell- als auch bei der RAG-Bewertung mit LLM-as-a-Judge können Kunden aus einer umfangreichen Liste integrierter Metriken wie Richtigkeit, Vollständigkeit, Zuverlässigkeit (Erkennung von Halluzinationen) sowie Metriken für verantwortungsvolle KI wie Antwortverweigerung, Schädlichkeit und Stereotypisierung auswählen. Unter bestimmten Bedingungen, kann es jedoch vorkommen, dass sie diese Metriken verschieden definieren oder neue Metriken erstellen möchten, die für ihre Bedürfnisse relevant sind. Beispielsweise können Kunden eine Metrik definieren, die bewertet, inwieweit die Reaktion einer Anwendung ihre spezifische Markenstimme beachtet, oder sie möchten die Reaktion entsprechend einer benutzerdefinierten kategorischen Rubrik klassifizieren.
Amazon-Bedrock-Bewertungen bietet Kunden jetzt die Möglichkeit, benutzerdefinierte Metriken sowohl für die Modell- als auch für die RAG-Bewertung mit LLM-as-a-Judge zu erstellen und wiederzuverwenden. Kunden können ihre eigenen Judge-Prompts schreiben, ihre eigenen kategorialen oder numerischen Bewertungsskalen definieren und integrierte Variablen verwenden, um während der Laufzeit Daten aus ihrem Datensatz oder GenKI-Antworten in den Jury-Prompt einzufügen, um den Datenflow in ihren Bewertungen vollständig anzupassen. Kunden werden inspiriert, um mit bereitgestellten Schnellstart-Vorlagen neue Judge-Prompt-Vorlagen/Rubriken zu erstellen, oder ihre eigenen von Grund auf neu erstellen.
Besuchen Sie zunächst die Amazon Bedrock-Konsole oder verwenden Sie die Bedrock-APIs. Weitere Informationen finden Sie im Benutzerhandbuch.