Überspringen zum Hauptinhalt

Amazon Bedrock

Amazon-Bedrock-Bewertungen

Evaluieren Sie Basismodelle, einschließlich benutzerdefinierter und importierter Modelle, um Modelle zu finden, die Ihren Anforderungen entsprechen. Sie können Ihren Abruf- oder durchgehenden RAG-Workflow auch in den Wissensdatenbanken von Amazon Bedrock auswerten.

Übersicht

Amazon Bedrock stellt Ihnen Evaluierungstools zur Verfügung, mit denen Sie die Einführung von Anwendungen für generative KI schneller und einfacher vorantreiben können. Evaluieren, vergleichen und wählen Sie das Basismodell für Ihren Anwendungsfall mithilfe der Modellbewertung aus. Bereiten Sie Ihre RAG-Anwendungen für den Produktionseinsatz vor – ob auf Amazon-Bedrock-Wissensdatenbanken oder auf Ihren eigenen benutzerdefinierten RAG-Systemen basierend – und evaluieren Sie dabei die Funktionen zum reinen Abrufen oder zum Abrufen und Generieren.

Missing alt text value

Bewertungstypen

Verwenden Sie LLM-as-a-Judge, um Modell-Ausgaben anhand Ihrer benutzerdefinierten Prompt-Datensätze mit Metriken wie Richtigkeit, Vollständigkeit und Schädlichkeit zu bewerten.

Evaluieren Sie Modellergebnisse mithilfe traditioneller Algorithmen und Metriken in natürlicher Sprache – etwa BERT Score, F1 und andere exakte Vergleichstechniken – und nutzen Sie dafür integrierte Prompt-Datensätze oder bringen Sie Ihre eigenen mit.

Bewerten Sie die Modellausgaben mit Ihren eigenen Mitarbeitern – oder überlassen Sie AWS die Verwaltung der Bewertungen für die Antworten auf Ihre benutzerdefinierten Prompt-Datensätze, wahlweise mit integrierten oder benutzerdefinierten Metriken.

Bewerten Sie die Abrufqualität Ihres benutzerdefinierten RAG-Systems auf Amazon-Bedrock-Wissensdatenbanken mit Ihren benutzerdefinierten Prompts und Metriken wie Kontextrelevanz und Kontextabdeckung.

Evaluieren Sie den generierten Inhalt Ihres umfassenden RAG-Workflows entweder aus Ihrer benutzerdefinierten RAG-Pipeline oder aus den Amazon-Bedrock-Wissensdatenbanken. Verwenden Sie Ihre eigenen Prompts und Metriken wie Treue (Halluzinationserkennung), Richtigkeit und Vollständigkeit.

Ihren durchgängigen RAG-Workflow evaluieren

Verwenden Sie abgerufenen und generierte Evaluationen, um die durchgängige RAG-Fähigkeit (Retrieval-Augmented Generation) Ihrer Anwendung zu evaluieren. Stellen Sie sicher, dass die generierten Inhalte korrekt und vollständig sind, Halluzinationen begrenzen und den Grundsätzen einer verantwortungsvollen KI entsprechen. Bewerten Sie entweder die Leistung einer Bedrock-Wissensdatenbank oder bringen Sie Ihre eigenen Inferenzantworten aus Ihrem benutzerdefinierten RAG-System mit. Wählen Sie ein LLM als Judge für Ihre Amazon-Bedrock-Wissensdatenbanken oder Ihre benutzerdefinierten RAG-Ausgaben, laden Sie Ihren Datensatz hoch und bestimmen Sie die Metriken, die für Ihre Bewertung am wichtigsten sind.
Missing alt text value

Gewährleisten Sie einen vollständigen und relevanten Abruf aus Ihrem RAG-System

Mit RAG-Abrufauswertungen können Sie die Speicher- und Abrufeinstellungen Ihrer Amazon-Bedrock-Wissensdatenbanken oder Ihres benutzerdefinierten RAG-Systems überprüfen. Stellen Sie sicher, dass die abgerufenen Inhalte relevant sind und die Benutzeranfrage vollständig abdecken. Wählen Sie ein LLM als Judge, bestimmen Sie eine Bedrock-Wissensdatenbank, um Ihre benutzerdefinierten RAG-Abrufe zu bewerten oder in Ihren Prompt-Datensatz einzubinden, und legen Sie die gewünschten Metriken fest.
Missing alt text value

Bewerten Sie FMs, um das Beste für Ihren Anwendungsfall auszuwählen

Die Modellbewertung in Amazon Bedrock ermöglicht automatische und manuelle Bewertungen, sodass Sie für jeden Anwendungsfall das passende FM auswählen können. Die automatische (programmatische) Modellbewertung verwendet kuratierte Datensätze und bietet vordefinierte Metriken wie Genauigkeit, Robustheit und Toxizität. Für subjektive Metriken können Sie mit Amazon Bedrock in wenigen schnellen Schritten einen Workflow zur menschlichen Bewertung einrichten. Mit menschlichen Bewertungen können Sie Ihre eigenen Datensätze einbringen und benutzerdefinierte Kennzahlen wie Relevanz, Stil und Ausrichtung auf die Markenstimme definieren. Bei Workflows zur menschlichen Bewertung können Sie entweder Ihre eigenen Mitarbeiter als Prüfer einsetzen oder ein von AWS verwaltetes Team mit der Durchführung der menschlichen Bewertung beauftragen. In diesem Fall stellt AWS qualifizierte Gutachter und übernimmt den gesamten Workflow in Ihrem Namen. Sie können ein LLM-as-a-Judge auch einsetzen, um qualitativ hochwertige Bewertungen Ihres Datensatzes vorzunehmen – anhand von Metriken wie Richtigkeit, Vollständigkeit und Genauigkeit (Halluzination) sowie Metriken für verantwortungsvolle KI wie Antwortverweigerung und Schädlichkeit. Zur Evaluation von Bedrock-Modellen oder beliebigen anderen Modellen können Sie Ihre eigenen Inferenzantworten in Ihren Eingabe-Prompt-Datensatz einfügen.
Missing alt text value

Vergleichen Sie die Ergebnisse mehrerer Bewertungsaufträge, um schneller Entscheidungen zu treffen

Verwenden Sie die Vergleichsfunktion in Evaluationen, um die Ergebnisse aller Änderungen an Eingabe-Prompts, zu bewertenden Modellen, Ihren benutzerdefinierten RAG-Systemen oder Bedrock-Wissensdatenbanken einzusehen.
Missing alt text value