Amazon Bedrock unterstützt jetzt die Beobachtbarkeit der ersten Token-Latenz und des Kontingentverbrauchs

Veröffentlicht am: 10. März 2026

Amazon Bedrock ist ein vollständig verwalteter Service für die Erstellung generativer KI-Anwendungen auf der Grundlage leistungsstarker Basismodelle führender KI-Anbieter. Es unterstützt jetzt zwei neue CloudWatch-Metriken, TimeToFirstToken und EstimatedTpmQuotaUsage, wodurch Sie einen genaueren Einblick in die Inferenzleistung und den Kontingentverbrauch erhalten.

TimeToFirstToken misst die Latenz vom Senden einer Anfrage bis zum Empfang des ersten Tokens für Streaming-APIs (ConverseStream und InvokeModelWithResponseStream). Sie können diese Metrik zum Einrichten von CloudWatch-Alarmen verwenden, die die Latenzverschlechterung überwachen und SLA-Baselines erstellen, ohne dass eine clientseitige Instrumentierung erforderlich ist. EstimatedTPMQuotaUsage verfolgt Ihren geschätzten TPM-Kontingentverbrauch (Tokens Per Minute), einschließlich Cache-Schreib-Tokens und Ausgabe-Burndown-Multiplikatoren, für alle Inferenz-APIs (Converse, InvokeModel, ConverseStream und InvokeModelWithResponseStream). Mit dieser Metrik können Sie proaktive Alarme einrichten, bevor Ihr Kontingentlimit erreicht wird, Ihren Kontingentverbrauch modellübergreifend verfolgen und weitere Kontingenterhöhungen anfordern, bevor die Nutzung begrenzt wird.

Beide Metriken werden in allen kommerziellen Bedrock-Regionen für Modelle unterstützt, die über regionsübergreifende Inferenzprofile und regionsinterne Inferenz verfügbar sind, und werden bei erfolgreich abgeschlossenen Anfragen jede Minute aktualisiert. Sie sind in Ihrer CloudWatch einsatzbereit verfügbar. Sie zahlen nur für die genutzte Modellinferenz, ohne dass API-Änderungen oder Opt-In erforderlich sind.

Weitere Informationen zu TimeToFirstToken und EstimatedTpmQuotaUsage finden Sie auf unserer Dokumentationsseite zur Überwachung von Amazon Bedrock.