Amazon-Bedrock-Bewertungen
Evaluieren Sie Basismodelle, einschließlich benutzerdefinierter und importierter Modelle, um Modelle zu finden, die Ihren Anforderungen entsprechen. Sie können Ihren Abruf- oder durchgehenden RAG-Workflow auch in den Wissensdatenbanken von Amazon Bedrock auswerten.
Übersicht
Amazon Bedrock stellt Ihnen Evaluierungstools zur Verfügung, mit denen Sie die Einführung von Anwendungen für generative KI schneller und einfacher vorantreiben können. Evaluieren, vergleichen und wählen Sie das Basismodell für Ihren Anwendungsfall mithilfe der Modellbewertung aus. Bereiten Sie Ihre RAG-Anwendungen für den Produktionseinsatz vor – ob auf Amazon-Bedrock-Wissensdatenbanken oder auf Ihren eigenen benutzerdefinierten RAG-Systemen basierend – und evaluieren Sie dabei die Funktionen zum reinen Abrufen oder zum Abrufen und Generieren.

Bewertungstypen
Modelle: LLM-as-a-Judge
Verwenden Sie LLM-as-a-Judge, um Modell-Ausgaben anhand Ihrer benutzerdefinierten Prompt-Datensätze mit Metriken wie Richtigkeit, Vollständigkeit und Schädlichkeit zu bewerten.
Modelle: Programmatisch
Evaluieren Sie Modellergebnisse mithilfe traditioneller Algorithmen und Metriken in natürlicher Sprache – etwa BERT Score, F1 und andere exakte Vergleichstechniken – und nutzen Sie dafür integrierte Prompt-Datensätze oder bringen Sie Ihre eigenen mit.
Modelle: Menschlich
Bewerten Sie die Modellausgaben mit Ihren eigenen Mitarbeitern – oder überlassen Sie AWS die Verwaltung der Bewertungen für die Antworten auf Ihre benutzerdefinierten Prompt-Datensätze, wahlweise mit integrierten oder benutzerdefinierten Metriken.
RAG: Abruf
Bewerten Sie die Abrufqualität Ihres benutzerdefinierten RAG-Systems auf Amazon-Bedrock-Wissensdatenbanken mit Ihren benutzerdefinierten Prompts und Metriken wie Kontextrelevanz und Kontextabdeckung.
RAG: Abrufen und Generieren
Evaluieren Sie den generierten Inhalt Ihres umfassenden RAG-Workflows entweder aus Ihrer benutzerdefinierten RAG-Pipeline oder aus den Amazon-Bedrock-Wissensdatenbanken. Verwenden Sie Ihre eigenen Prompts und Metriken wie Treue (Halluzinationserkennung), Richtigkeit und Vollständigkeit.
Ihren durchgängigen RAG-Workflow evaluieren

Gewährleisten Sie einen vollständigen und relevanten Abruf aus Ihrem RAG-System

Bewerten Sie FMs, um das Beste für Ihren Anwendungsfall auszuwählen

Vergleichen Sie die Ergebnisse mehrerer Bewertungsaufträge, um schneller Entscheidungen zu treffen
