Amazon Bedrock ahora admite la observabilidad de la latencia del primer token y el consumo de cuotas

Publicado en: 10 de mar de 2026

Amazon Bedrock es un servicio totalmente gestionado para crear aplicaciones de IA generativa utilizando modelos básicos de alto rendimiento de los principales proveedores de IA. Ahora admite dos nuevas métricas de CloudWatch, TimeToFirstToken y EstimatedTPMQuotaUsage, lo que le brinda una mayor visibilidad del rendimiento de las inferencias y el consumo de cuotas.

TimeToFirstToken mide la latencia desde el momento en que se envía una solicitud hasta que se recibe el primer token, para las API de streaming (ConversStream e InvokeModelWithResponseStream). Puede usar esta métrica para configurar alarmas de CloudWatch que supervisen la degradación de la latencia y establezcan puntos de referencia de SLA, sin necesidad de instrumentación del lado del cliente. EstimatedTPMQuotaUsage realiza un seguimiento de su consumo estimado de cuotas de tokens por minuto (TPM), incluidos los tokens de escritura en caché y los multiplicadores de agotamiento de salida, en todas las API de inferencia (Converse, InvokeModel, ConversStream e InvokeModelWithResponseStream). Puede usar esta métrica para configurar alarmas proactivas antes de alcanzar su límite de cuota, realizar un seguimiento del consumo de cuotas en todos sus modelos y solicitar nuevos aumentos de cuota antes de que se limite la tasa de uso.

Ambas métricas son compatibles en todas las regiones comerciales de Bedrock para los modelos disponibles mediante perfiles de inferencia interregionales e inferencias dentro de la región, que se actualizan cada minuto para que las solicitudes se completen correctamente. Están disponibles en su CloudWatch listas para usar; solo paga por la inferencia del modelo subyacente que consume, sin necesidad de cambiar la API ni de suscribirse.

Para obtener más información sobre TimeToFirstToken y EstimatedTPMQuotaUsage, consulte nuestra página de documentación sobre la supervisión de Amazon Bedrock.

Amazon Bedrock ahora admite la observabilidad de la latencia del primer token y el consumo de cuotas

Aprender

Recursos

Desarrolladores

Ayuda