Amazon Bedrock supporta ora l'osservabilità della latenza del primo token e del consumo delle quote

Inserito il: 10 mar 2026

Amazon Bedrock è un servizio completamente gestito per la creazione di applicazioni di IA generativa utilizzando modelli di base ad alte prestazioni dei principali fornitori di IA. Il servizio supporta ora due nuove metriche CloudWatch, TimeToFirstToken ed EstimatedTPMQuotaUsage, offrendo una visibilità più approfondita sulle prestazioni di inferenza e sul consumo delle quote.

TimeToFirstToken misura la latenza dal momento in cui viene inviata una richiesta a quello in cui viene ricevuto il primo token per le API di streaming (ConverseStream e InvokeModelWithResponseStream). Questa metrica consente di impostare allarmi CloudWatch per monitorare il degrado della latenza e definire i valori di riferimento per gli SLA, senza alcuna strumentazione lato client. EstimatedTPMQuotaUsage consente di monitorare il consumo stimato della quota di token al minuto (TPM), inclusi i token di scrittura nella cache e i moltiplicatori di consumo dell'output, in tutte le API di inferenza (Converse, InvokeModel, ConverseStream e InvokeModelWithResponseStream). Questa metrica consente di impostare allarmi proattivi prima di raggiungere il limite della quota, monitorare il consumo della stessa tra i vari modelli e richiedere ulteriori aumenti della quota prima che l'utilizzo venga limitato.

Entrambe le metriche sono supportate in tutte le regioni Bedrock commerciali per i modelli disponibili tramite profili di inferenza tra regioni e inferenza in-region, con aggiornamenti ogni minuto per le richieste completate con successo. Queste metriche sono disponibili nativamente in CloudWatch; i costi sono relativi esclusivamente all'inferenza del modello sottostante consumata, senza modifiche alle API o necessità di attivazione (opt-in).

Per saperne di più su TimeToFirstToken e EstimatedTPMQuotaUsage, consulta la pagina di documentazione sul monitoraggio di Amazon Bedrock.