Amazon Bedrock já oferece observabilidade de latência do primeiro token e de consumo de cotas

Publicado: 10 de mar de 2026

O Amazon Bedrock é um serviço totalmente gerenciado para criar aplicações de IA generativa usando modelos de base de alto desempenho dos principais fornecedores de IA. Agora, ele oferece duas novas métricas do CloudWatch, TimeToFirstToken e EstimatedTPMQuotaUsage, aumentando a visibilidade do desempenho da inferência e do consumo de cotas.

TimeToFirstToken mede a latência desde o envio da solicitação até o recebimento do primeiro token das APIs de streaming (ConverseStream e InvokeModelWithResponseStream). Você pode usar essa métrica para definir alarmes do CloudWatch que monitoram a degradação da latência e estabelecem linhas de base de SLAs, sem qualquer instrumentação do lado do cliente. EstimatedTPMQuotaUsage rastreia o consumo estimado da cota de tokens por minuto (TPM), incluindo tokens de gravação em cache e multiplicadores de consumo de saída, em todas as APIs de inferência (Converse, InvokeModel, ConverseStream e InvokeModelWithResponseStream). Você pode usar essa métrica para definir alarmes proativos antes de atingir limites de cota, monitorar o consumo de cotas pelos modelos e solicitar aumentos de cota adicionais antes que o uso seja limitado.

As duas métricas são oferecidas em todas as regiões comerciais do Bedrock para os modelos disponíveis por meio de perfis de inferência entre regiões e na região. As métricas são atualizados a cada minuto considerando as solicitações concluídas corretamente. Elas já estão disponíveis e prontas para uso no CloudWatch. Você paga apenas pela inferência do modelo associado consumida, sem necessidade de alterações de API ou adesão.

Para saber mais sobre TimeToFirstToken e EstimatedTPMQuotaUsage, consulte a página de documentação sobre monitoramento do Amazon Bedrock.