Amazon Bedrock AgentCore Evaluations ist nun allgemein verfügbar
Amazon Bedrock AgentCore Evaluations ist nun allgemein verfügbar und bietet eine automatisierte Qualitätsbewertung für KI-Agenten. Mithilfe von Evaluations können Entwickler die Qualität der Agenten durch die kontinuierliche Auswertung des Produktionsdatenverkehrs überwachen, Änderungen durch Testabläufe validieren und die Leistung der Agenten anhand festgelegter Erwartungen messen. AgentCore Evaluations bietet zwei Arten von Auswertungen an. Die Online-Auswertung überwacht kontinuierlich die Leistung der Agenten im Produktivbetrieb, indem sie Live-Protokolle stichprobenartig erfasst und bewertet. Die bedarfsgesteuerte Bewertung ermöglicht es Teams, Agenten programmgesteuert zu testen, und unterstützt damit Regressionstests in CI/CD-Pipelines sowie interaktive Entwicklungsabläufe.
Teams können Agenten anhand von 13 integrierten Bewertungskriterien hinsichtlich Antwortqualität, Sicherheit, Aufgabenerfüllung und Tool-Nutzung bewerten. Entwickler können Ground Truth zudem nutzen, um die Leistung der Chatbots anhand der Erwartungen zu messen, darunter Referenzantworten zur Validierung der Antworten, Verhaltensaussagen für Ziele auf Sitzungsebene sowie erwartete Abläufe bei der Tool-Ausführung. Für domänenspezifische Anforderungen können Teams benutzerdefinierte Auswertungsfunktionen konfigurieren, wobei sie für die LLM-basierte Auswertung beliebige Eingabeaufforderungen und Modelle verwenden können, oder für die codebasierte Auswertung benutzerdefinierte Logik in Python oder JavaScript über von Lambda gehostete Funktionen implementieren. Evaluations lässt sich in AgentCore Observability integrieren und ermöglicht so eine einheitliche Überwachung sowie Echtzeit-Benachrichtigungen.
AgentCore Evaluations ist in neun AWS-Regionen verfügbar: US Ost (Nord-Virginia), US Ost (Ohio), US West (Oregon), Asien-Pazifik (Mumbai), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Tokio), Europa (Frankfurt), Europa (Irland).
Weitere Informationen zu Amazon Bedrock AgentCore Evaluations finden Sie in der Dokumentation. Informationen zu den ersten Schritten finden Sie im AgentCore Starter Toolkit