Die Amazon-Bedrock-Modellbewertung beinhaltet jetzt LLM-as-a-Judge (Vorschau)
Mit der Modellbewertung in Amazon Bedrock können Sie die besten Basismodelle (FMs) für Ihren Anwendungsfall evaluieren, vergleichen und auswählen. Es gibt eine neue Bewertungsfunktion: LLM-as-a-Judge (Vorschau). Sie können jetzt eine LLM zur Beurteilung auswählen, und so sicherstellen, dass Sie für jedes zu bewertende Modell das passende Evaluatormodell haben. Amazon Bedrock bietet verschiedene Judge-LLMs an. Sie können auch kuratierte Qualitätsmetriken wie Richtigkeit, Vollständigkeit und professionellen Stil und Tonfall sowie Metriken für verantwortungsvolle KI wie Schädlichkeit und Antwortverweigerung auswählen. Wenn Sie Ihren eigenen Prompt-Datensatz mitbringen, erfolgt die Bewertung anhand Ihrer Daten, und Sie können die Ergebnisse verschiedener Bewertungsjobs vergleichen, um schneller Entscheidungen zu treffen.
Bisher hatten Sie die Wahl zwischen einer von Menschen durchgeführten Modellbewertung und einer automatischen Bewertung mit exaktem Stringabgleich und anderen herkömmlichen NLP-Metriken. Diese Methoden waren zwar schnell, es gab jedoch keine starke Korrelation mit der von Menschen durchgeführten Bewertung. Mit LLM-as-a-Judge erhalten Sie jetzt menschenähnliche Bewertungsqualität zu viel niedrigeren Kosten als bei der vollständig von Menschen durchgeführten Bewertung und können viele Wochen Zeit einsparen. Sie können integrierte Metriken verwenden, um objektive Fakten zu bewerten oder den Schreibstil und den Tonfall eines Datensatzes subjektiv bewerten.
Weitere Informationen zum neuen LLM-as-a-Judge-Feature der Amazon-Bedrock-Modellbewertung, einschließlich der AWS-Regionen, in denen es verfügbar ist, finden Sie im AWS-News-Blog und auf der Seite Amazon-Bedrock-Bewertungen. Melden Sie sich zum Einstieg in der AWS-Managementkonsole an oder verwenden Sie die Amazon-Bedrock-APIs.