Amazon Bedrock prend désormais en charge l'observabilité de la latence du premier jeton et de la consommation de quotas
Amazon Bedrock est un service entièrement géré permettant de créer des applications d'IA générative à l'aide de modèles de fondation performants développés par les principaux fournisseurs d'IA. Il prend désormais en charge deux nouvelles métriques CloudWatch, TimeToFirstToken et EstimatedTPMQuotaUsage, ce qui vous donne une meilleure visibilité sur les performances d'inférence et la consommation de quotas.
TimeToFirstToken mesure la latence entre l'envoi d'une demande et la réception du premier jeton, pour les API de streaming (ConverseStream et InvokeModelWithResponseStream). Vous pouvez utiliser cette métrique pour définir des alarmes CloudWatch qui surveillent la dégradation de la latence et établissent des niveaux de référence SLA, sans aucune instrumentation côté client. EstimatedTPMQuotaUsage suit votre consommation estimée de quotas de jetons par minute (TPM), y compris les jetons d'écriture du cache et les multiplicateurs de résolution de sortie, sur toutes les API d'inférence (Converse, InvokeModel, ConverseStream et InvokeModelWithResponseStream). Vous pouvez utiliser cette métrique pour définir des alarmes proactives avant d'atteindre votre limite de quota, suivre la consommation de vos quotas sur tous vos modèles et demander de nouvelles augmentations de quota avant que l'utilisation ne soit limitée.
Les deux métriques sont prises en charge dans toutes les régions commerciales de Bedrock pour les modèles disponibles via des profils d'inférence interrégionaux et des inférences intrarégionales, mises à jour toutes les minutes pour les demandes traitées avec succès. Ils sont disponibles dans votre CloudWatch prêts à l'emploi ; vous ne payez que pour l'inférence du modèle sous-jacent que vous consommez, sans modification de l'API ni inscription requise.
Pour en savoir plus sur TimeToFirstToken et EstimatedTpmQuotAusage, consultez notre page de documentation sur la surveillance d'Amazon Bedrock.