Amazon Bedrock AgentCore fügt Qualitätsevaluierungen und Richtlinienkontrollen für die Bereitstellung vertrauenswürdiger KI-Agenten hinzu

von Danilo Poccia, übersetzt durch Desiree Brunner.

Auf der AWS re:Invent 2025 haben wir neue Funktionen in Amazon Bedrock AgentCore vorgestellt, mit denen wir Barrieren abbauen, die KI-Agenten bisher von der Produktionsreife abgehalten haben. Branchenübergreifend setzen Organisationen branchenübergreifend setzen bereits auf AgentCore – die fortschrittlichste Plattform für die sichere Entwicklung, Bereitstellung und den Betrieb hochleistungsfähiger Agenten in jeder Größenordnung. In nur 5 Monaten seit der Vorschau wurde das AgentCore SDK[EN,Extern] über 2 Millionen Mal heruntergeladen. Zum Beispiel:

PGA TOUR, ein Pionier und Innovationsführer im Sport, hat ein Multi-Agenten-System zur Inhaltserstellung entwickelt, um Artikel für ihre digitalen Plattformen zu erstellen. Die neue Lösung, die auf AgentCore basiert, ermöglicht es der PGA TOUR, eine umfassende Berichterstattung für jeden Spieler im Feld bereitzustellen, indem die Geschwindigkeit der Inhaltserstellung um 1.000 Prozent erhöht wird, während gleichzeitig eine Kostenreduzierung von 95 Prozent erreicht wird.
Unabhängige Softwareanbieter (ISVs) wie Workday entwickeln die Software der Zukunft auf AgentCore. AgentCore Code Interpreter bietet Workday Planning Agent sicheren Datenschutz und wesentliche Funktionen für die Erkundung von Finanzdaten. Benutzer können Finanz- und Betriebsdaten durch Abfragen in natürlicher Sprache analysieren, wodurch die Finanzplanung intuitiv und selbstgesteuert wird. Diese Funktion reduziert die für routinemäßige Planungsanalysen aufgewendete Zeit um 30 Prozent und spart etwa 100 Stunden pro Monat.
Grupo Elfa, ein brasilianischer Händler und Einzelhändler, verlässt sich auf AgentCore Observability für vollständige Audit-Rückverfolgbarkeit und Echtzeit-Metriken ihrer Agenten und verwandelt ihre reaktiven Prozesse in proaktive Abläufe. Mit dieser einheitlichen Plattform kann ihr Vertriebsteam Tausende von täglichen Preisangeboten bearbeiten, während die Organisation vollständige Transparenz über Agentenentscheidungen behält, was dazu beiträgt, eine 100-prozentige Rückverfolgbarkeit von Agentenentscheidungen und -interaktionen zu erreichen und die Problemlösungszeit um 50 Prozent zu reduzieren.

Wenn Organisationen ihre Bereitstellung der Agenten skalieren, stehen sie vor Herausforderungen bei der Implementierung der richtigen Grenzen und Qualitätsprüfungen, um vertrauensvolle Agenten bereitzustellen. Die Autonomie, die Agenten leistungsfähig macht, macht es auch schwierig, sie beim Skalieren vertrauensvoll bereitzustellen, da sie möglicherweise unangemessen auf sensible Daten zugreifen, unbefugte Entscheidungen treffen oder unerwartete Aktionen durchführen. Entwicklungsteams müssen die Agentenautonomie ermöglichen und gleichzeitig sicherstellen, dass sie innerhalb akzeptabler Grenzen und mit der Qualität arbeiten, die erforderlich ist, sodass Kunden und Mitarbeiter sie nutzen können.

Die neuen Funktionen nehmen Ihnen die Unsicherheit in diesem Prozess ab und ermöglichen es Ihnen, vertrauenswürdige KI-Agenten zuverlässig zu erstellen und bereitzustellen:

Policy in AgentCore (Vorschau) – Definiert klare Grenzen für Agentenaktionen, indem Aufrufe des AgentCore Gateway Tools abgefangen werden, bevor sie mit Richtlinien mit fein abgestuften Berechtigungen ausgeführt werden.
AgentCore Evaluations (Vorschau) – Überwacht die Qualität Ihrer Agenten basierend auf realem Verhalten unter Verwendung integrierter Evaluatoren für Dimensionen wie Korrektheit und Hilfsbereitschaft sowie benutzerdefinierter Evaluatoren für geschäftsspezifische Anforderungen.

Wir führen auch Funktionen ein, die erweitern, was Agenten tun können:

Episodic functionality in AgentCore Memory (zu Deutsch: „Episodische Funktionalität in AgentCore Memory“) – Eine neue Langzeitstrategie, die Agenten hilft, aus Erfahrungen zu lernen und Lösungen über ähnliche Situationen hinweg anzupassen, um die Konsistenz und Leistung bei ähnlichen zukünftigen Aufgaben zu verbessern.
Bidirectional streaming in AgentCore Runtime (zu Deutsch: „Bidirektionales Streaming in AgentCore Runtime“) – Stellt Sprachagenten bereit, bei denen sowohl Benutzer als auch Agenten gleichzeitig sprechen können und einem natürlichen Gesprächsfluss folgen.

Policy in AgentCore für präzise Agentenkontrolle
Policy (zu Deutsch: Richtlinie) gibt Ihnen Kontrolle über die Aktionen, die Agenten ausführen können. Sie wird außerhalb der Reasoning-Schleife des Agenten angewendet und behandelt Agenten als autonome Akteure, deren Entscheidungen eine Überprüfung erfordern, bevor sie Tools, Systeme oder Daten erreichen. Die Integration mit AgentCore Gateway fängt, während sie geschehen, die Aufrufe des Tools ab und verarbeitet Anfragen unter Beibehaltung der Betriebsgeschwindigkeit, sodass Workflows schnell und reaktionsfähig bleiben.

Sie können Richtlinien in natürlicher Sprache erstellen oder direkt Cedar[EN, Extern] verwenden – eine Open-Source-Richtliniensprache für fein abgestufte Berechtigungen. Dies vereinfacht den Prozess zum Einrichten, Verstehen und Prüfen von Regeln, ohne benutzerdefinierten Code schreiben zu müssen. Dieser Ansatz macht die Richtlinienerstellung für Entwicklungs-, Sicherheits- und Compliance-Teams zugänglich, die ohne spezialisierte Programmierkenntnisse arbeiten können.

Die Richtlinien funktionieren unabhängig davon, wie der Agent erstellt wurde oder welches Modell er verwendet. Sie können definieren, auf welche Tools und Daten Agenten zugreifen können – ob es sich um APIs, AWS Lambda-Funktionen, Model Context Protocol (MCP)[EN, Extern]-Server oder Dienste von Drittanbietern handelt – welche Aktionen sie ausführen können und unter welchen Bedingungen.

Teams können klare Richtlinien einmalig definieren und sie konsistent in ihrer Organisation anwenden. Mit vorhandenen Richtlinien gewinnen Entwickler die Freiheit, innovative Agentenerlebnisse zu schaffen, und Organisationen können ihre Agenten so bereitstellen, dass sie autonom handeln, während sie wissen, dass sie innerhalb definierter Grenzen und Compliance-Anforderungen bleiben.

Verwendung von Policy in AgentCore
Erstellen Sie zunächst eine Policy Engine im neuen Abschnitt Policy der AgentCore-Konsole und verknüpfen Sie sie mit einem oder mehreren AgentCore-Gateways.

Eine Policy Engine ist eine Sammlung von Richtlinien, die am Gateway-Endpunkt ausgewertet werden. Wenn Sie ein Gateway mit einer Policy Engine verknüpfen, können Sie wählen, ob Sie das Ergebnis der Richtlinie durchsetzen möchten – wodurch der Zugriff auf einen Tool-Aufruf effektiv erlaubt oder verweigert wird – oder nur Protokolle ausgeben möchten. Die Verwendung von Protokollen hilft Ihnen, eine Richtlinie zu testen und zu validieren, bevor Sie sie in der Produktion aktivieren.

Dann können Sie die anzuwendenden Richtlinien definieren, um eine granulare Kontrolle über den Zugriff auf die von den zugehörigen AgentCore-Gateways angebotenen Tools zu haben.

Um eine Richtlinie zu erstellen, können Sie mit einer Beschreibung in natürlicher Sprache beginnen (die Informationen über die zu verwendenden Authentifizierungs-Claims enthalten sollte) oder direkt Cedar-Code bearbeiten.

Die Richtlinienerstellung in natürlicher Sprache bietet Ihnen eine zugänglichere Möglichkeit, fein abgestufte Richtlinien zu erstellen. Anstatt formalen Richtliniencode zu schreiben, können Sie Regeln in einfacher Sprache beschreiben. Das System interpretiert Ihre Absicht, generiert Kandidatenrichtlinien, validiert sie gegen das Tool-Schema und verwendet „Automated Reasoning“, um Sicherheitsbedingungen zu überprüfen – wobei Prompts identifiziert werden, die zu freizügig, zu restriktiv sind oder Bedingungen enthalten, die niemals erfüllt werden können.

Im Gegensatz zu generischen Large Language Model (LLM)-Übersetzungen versteht diese Funktion die Struktur Ihrer Tools und generiert Richtlinien, die sowohl syntaktisch korrekt als auch semantisch mit Ihrer Absicht übereinstimmen, während Regeln gekennzeichnet werden, die nicht durchgesetzt werden können. Sie ist auch als Model Context Protocol (MCP)[EN, Extern]-Server verfügbar, sodass Sie Richtlinien direkt in Ihrer bevorzugten KI-unterstützten Codierungsumgebung als Teil Ihres normalen Entwicklungsworkflows erstellen und validieren können. Dieser Ansatz reduziert die Einarbeitungszeit und hilft Ihnen, qualitativ hochwertige Autorisierungsregeln zu schreiben, ohne Cedar-Expertise zu benötigen.

Die folgende Beispielrichtlinie verwendet Informationen aus den OAuth-Claims im JWT-Token, das zur Authentifizierung bei einem AgentCore-Gateway verwendet wird (für die role), und die an den Tool-Aufruf übergebenen Argumente (context.input), um den Zugriff auf das Tool zu validieren, das eine Rückerstattung verarbeitet. Nur ein authentifizierter Benutzer mit der Rolle refund-agent kann auf das Tool zugreifen bei Beträgen (context.input.amount) unter 200 USD.

permit(
  principal is AgentCore::OAuthUser,
  action == AgentCore::Action::"RefundTool__process_refund",
  resource == AgentCore::Gateway::"<GATEWAY_ARN>"
)
when {
  principal.hasTag("role") &&
  principal.getTag("role") == "refund-agent" &&
  context.input.amount < 200
};

AgentCore Evaluations für kontinuierliche Echtzeit-Qualitätsintelligenz
AgentCore Evaluations ist ein vollständig verwalteter Service, der Ihnen hilft, die Agentenleistung basierend auf realem Verhalten kontinuierlich zu überwachen und zu analysieren. Mit AgentCore Evaluations können Sie integrierte Evaluatoren für gängige Qualitätsdimensionen wie Korrektheit, Nützlichkeit, Tool-Auswahlgenauigkeit, Sicherheit, Zielerfolgsrate und Kontextrelevanz verwenden. Sie können auch benutzerdefinierte modellbasierte Bewertungssysteme erstellen, die mit Ihrem gewählten Prompt und Modell konfiguriert werden, um geschäftsspezifische Bewertungen zu ermöglichen. Der Service erfasst dabei kontinuierlich Live-Interaktionen der Agenten und bewertet diese kontinuierlich.

Alle Ergebnisse von AgentCore Evaluations werden in Amazon CloudWatch zusammen mit AgentCore Observabilit Insights visualisiert und bieten einen Ort für einheitliche Überwachung. Sie können auch Warnungen und Alarme für die Bewertungsergebnisse einrichten, um die Agentenqualität proaktiv zu überwachen und zu reagieren, wenn Metriken außerhalb akzeptabler Schwellenwerte fallen. Sie können AgentCore Evaluations während der Testphase verwenden, um einen Agenten gegen die Baseline zu prüfen, bevor Sie ihn bereitstellen. Dies verhindert, dass fehlerhafte Versionen die Benutzer erreichen. In der Produktion dienen die Evaluations zur kontinuierlichen Verbesserung Ihrer Agenten. Wenn Qualitätsmetriken unter definierte Schwellenwerte fallen – wie z. B. eine sinkende Kundenzufriedenheit oder Höflichkeitswerte, die über einen Zeitraum von 8 Stunden um mehr als 10 Prozent sinken – löst das System sofortige Warnungen aus und hilft, Qualitätsprobleme schneller zu erkennen und zu beheben.

Verwendung von AgentCore Evaluations
Sie können eine Online-Bewertung im neuen Abschnitt Evaluations (zu Deutsch: „Bewertungen“) der AgentCore-Konsole erstellen. Sie können als Datenquelle einen AgentCore-Agenten-Endpunkt oder eine CloudWatch-Protokollgruppe verwenden, die von einem externen Agenten verwendet wird. Zum Beispiel verwende ich hier denselben Beispiel-Kundensupport-Agenten, den ich geteilt habe, als wir AgentCore in der Vorschau vorgestellt haben[EN].

Dann können Sie die zu verwendenden Evaluatoren auswählen, einschließlich benutzerdefinierter Evaluatoren, die Sie ausgehend von den vorhandenen Vorlagen definieren oder von Grund auf neu erstellen können.

Für einen Kundensupport-Agenten können Sie beispielsweise Metriken wie folgende auswählen:

„Correctness“ = Korrektheit – Bewertet, ob die Informationen in der Antwort des Agenten sachlich korrekt sind
„Faithfulness“ = Faktentreue – Bewertet, ob Informationen in der Antwort durch bereitgestellten Kontext/Quellen unterstützt werden
„Helpfulness“ = Nützlichkeit – Bewertet aus der Perspektive des Benutzers, wie nützlich und wertvoll die Antwort des Agenten ist
„Harmfulness“ = Schädlichkeit – Bewertet, ob die Antwort schädliche Inhalte enthält
„Stereotyping“ = Stereotypisierung – Erkennt Inhalte, die Verallgemeinerungen über Einzelpersonen oder Gruppen vornehmen

Die Evaluatoren für Tool-Auswahl und Tool-Parametergenauigkeit können Ihnen helfen zu verstehen, ob ein Agent das richtige Tool für eine Aufgabe auswählt und die richtigen Parameter aus den Benutzeranfragen extrahiert.

Um die Erstellung der Bewertung abzuschließen, können Sie die Sampling-Rate und optionale Filter auswählen. Für Berechtigungen können Sie eine neue AWS Identity and Access Management (IAM)-Servicerolle erstellen oder eine vorhandene übergeben.

Die Ergebnisse werden, sobald sie ausgewertet werden, in Amazon CloudWatch im AgentCore Observability-Dashboard veröffentlicht. Sie können einen der Balkendiagrammabschnitte auswählen, um die entsprechenden Traces (zu Deutsch: „Ablaufverfolgung“) anzuzeigen und tiefere Einblicke in die Anfragen und Antworten hinter dieser spezifischen Evaluation zu erhalten.

Da sich die Ergebnisse in CloudWatch befinden, können Sie alle CloudWatch Funktionen verwenden, um beispielsweise Alarme und Automatisierungen zu erstellen.

Erstellen benutzerdefinierter Evaluatoren in AgentCore Evaluations
Benutzerdefinierte Evaluatoren ermöglichen es Ihnen, geschäftsspezifische Qualitätsmetriken zu definieren, die auf die einzigartigen Anforderungen Ihres Agenten zugeschnitten sind. Um einen benutzerdefinierten Evaluator (in Englisch: „custom evaluator“) zu erstellen, geben Sie das als Richter zu verwendende Modell an, einschließlich Inferenzparametern wie Temperatur und maximalen Ausgabe-Token, und einen maßgeschneiderten Prompt mit den Bewertungsanweisungen.

Benutzerdefinierte Evaluatoren (in Englisch: „custom evaluator“) ermöglichen die Definition geschäftsspezifischer Qualitätsmetriken, die auf die individuellen Anforderungen Ihres Agenten zugeschnitten sind. Für die Erstellung geben Sie das Modell an, das wie ein Richter als Bewertungsinstanz fungiert, konfigurieren Inferenzparameter wie Temperatur und maximale Ausgabe-Token und erstellen einen maßgeschneiderten Prompt mit den Bewertungsanweisungen.

Sie können mit dem Prompt beginnen, der von einem der integrierten Evaluatoren verwendet wird, oder einen neuen eingeben.

Dann definieren Sie die Skala, die in der Ausgabe erzeugt werden soll. Es können entweder numerische Werte oder benutzerdefinierte Textbezeichnungen sein, die Sie definieren. Schließlich konfigurieren Sie, ob die Bewertung vom Modell für einzelne Traces, vollständige Sitzungen oder für jeden Tool-Aufruf berechnet wird.

AgentCore Memory episodische Funktionalität für erfahrungsbasiertes Lernen
AgentCore Memory, ein vollständig verwalteter Service, der KI-Agenten die Fähigkeit gibt, sich an vergangene Interaktionen zu erinnern, umfasst jetzt eine neue Langzeitgedächtnis-Strategie, die Agenten die Fähigkeit gibt, aus vergangenen Erfahrungen zu lernen und diese Lektionen anzuwenden, um in zukünftigen Interaktionen hilfreicher zu sein.

Betrachten Sie die Buchung von Reisen mit einem Agenten: Im Laufe der Zeit lernt der Agent aus Ihren Buchungsmustern – wie der Tatsache, dass Sie bei Geschäftsreisen aufgrund von Kundenbesprechungen oft Flüge auf spätere Zeiten verschieben müssen. Wenn Sie Ihre nächste Buchung mit Kundenbesprechungen beginnen, schlägt der Agent proaktiv flexible Rückkehroptionen basierend auf diesen erlernten Mustern vor. Genau wie ein erfahrener Assistent, der Ihre spezifischen Reisegewohnheiten lernt, können Agenten mit episodischem Gedächtnis jetzt Ihre individuellen Bedürfnisse erkennen und sich daran anpassen.

Wenn Sie die neue episodische Funktionalität aktivieren, erfasst AgentCore Memory strukturierte Episoden, die den Kontext, den Reasoning-Prozess, durchgeführte Aktionen und Ergebnisse von Agenteninteraktionen aufzeichnen. Ein Reflexionsagent analysiert diese Episoden, um umfassendere Erkenntnisse und Muster zu extrahieren. Bei ähnlichen Aufgaben können Agenten diese Erkenntnisse abrufen, um die Konsistenz der Entscheidungsfindung zu verbessern und die Verarbeitungszeit zu reduzieren. Dies reduziert den Bedarf an benutzerdefinierten Anweisungen, indem nur die spezifischen Erkenntnisse in den Agentenkontext aufgenommen werden, die ein Agent zum Abschließen einer Aufgabe benötigt – anstatt einer langen Liste aller möglichen Vorschläge.

AgentCore Runtime bidirektionales Streaming für natürlichere Gespräche
Mit AgentCore Runtime können Sie Agenten-Anwendungen mit wenigen Codezeilen bereitstellen. Um natürliche und reaktionsschnelle Gesprächserlebnisse zu ermöglichen, unterstützt AgentCore Runtime jetzt bidirektionales Streaming. Diese Funktion ermöglicht es Sprachagenten, zuzuhören und sich anzupassen, während Benutzer sprechen. Menschen können Agenten mitten in der Antwort unterbrechen, und der Agent passt sich sofort an den neuen Kontext an – ohne darauf warten zu müssen, dass der Agent seine aktuelle Ausgabe beendet. Anstelle der traditionellen abwechselnden Interaktion, bei der Benutzer auf vollständige Antworten warten müssen, ermöglicht bidirektionales Streaming fließende, natürliche Gespräche. Agenten können ihre Antwort dynamisch basierend auf dem anpassen, was der Benutzer sagt.

Der komplett neue Aufbau dieser Gesprächserlebnisse erfordert erheblichen Engineering-Aufwand, um den komplexen Fluss der gleichzeitigen Kommunikation zu handhaben. Bidirektionales Streaming vereinfacht dies, indem es die Infrastruktur verwaltet, die erforderlich ist, damit Agenten Eingaben verarbeiten, während sie Ausgaben generieren, Unterbrechungen elegant handhaben und den Kontext während dynamischer Gesprächswechsel beibehalten. Sie können jetzt Agenten bereitstellen, die sich auf natürliche Weise an die fließende Natur menschlicher Gespräche anpassen – mit Unterbrechungen mitten im Gedanken, Kontextwechsel und Klarstellungen, ohne den Faden der Interaktion zu verlieren.

Wissenswertes
Amazon Bedrock AgentCore, einschließlich der Vorschau von Policy, ist in den AWS-Regionen US East (Ohio, N. Virginia), US West (Oregon), Asia Pacific (Mumbai, Singapur, Sydney, Tokio) und Europe (Frankfurt, Irland) verfügbar. Die Vorschau von AgentCore Evaluations ist in den Regionen US East (Ohio, N. Virginia), US West (Oregon), Asia Pacific (Sydney) und Europe (Frankfurt) verfügbar. Für regionale Verfügbarkeit und zukünftige Roadmap besuchen Sie AWS Capabilities by Region[EN].

Mit AgentCore zahlen Sie für das, was Sie nutzen, ohne Vorabverpflichtungen. Detaillierte Preisinformationen finden Sie auf der Amazon Bedrock-Preisseite. AgentCore ist auch Teil des kostenlosen AWS-Kontingents, das neue AWS-Kunden nutzen können, um kostenlos zu beginnen und wichtige AWS-Services zu erkunden.

Diese neuen Funktionen funktionieren mit jedem Open-Source-Framework wie CrewAI[EN,Extern], LangGraph[EN,Extern], LlamaIndex[EN,Extern] und Strands Agents[EN,Extern] und mit jedem Foundation-Modell. AgentCore-Services können zusammen oder unabhängig verwendet werden, und Sie können mit Ihrer bevorzugten KI-unterstützten Entwicklungsumgebung mit dem AgentCore Open-Source-MCP-Server[EN] beginnen.

Um mehr zu erfahren und einfach zu beginnen, besuchen Sie den AgentCore Developer Guide.

Danilo Poccia

Danilo arbeitet mit Startups und Unternehmen jeder Größe zusammen, um ihre Innovation zu unterstützen. In seiner Rolle als Chief Evangelist (EMEA) bei Amazon Web Services nutzt er seine Erfahrung, um Menschen dabei zu helfen, ihre Ideen zum Leben zu erwecken, mit Schwerpunkt auf serverlosen Architekturen und ereignisgesteuerter Programmierung sowie auf den technischen und geschäftlichen Auswirkungen von maschinellem Lernen und Edge Computing. Er ist der Autor von AWS Lambda in Action von Manning.

AWS Germany – Amazon Web Services in Deutschland

Amazon Bedrock AgentCore fügt Qualitätsevaluierungen und Richtlinienkontrollen für die Bereitstellung vertrauenswürdiger KI-Agenten hinzu

Danilo Poccia

Lernen

Ressourcen

Entwickler

Hilfe