Amazon SageMaker lance une mise à l'échelle automatique plus rapide pour les modèles d'IA générative
Nous sommes ravis d'annoncer une nouvelle fonctionnalité Amazon SageMaker Inference qui aide les clients à réduire le temps nécessaire à la mise à l'échelle automatique de leurs modèles d'IA générative. Ils peuvent désormais utiliser des métriques inférieures à la minute et réduire de manière significative la latence globale de mise à l'échelle des modèles d'IA. Grâce à cette amélioration, les clients peuvent améliorer la réactivité de leurs applications d'IA générative en fonction des fluctuations de la demande.
Grâce à cette fonctionnalité, les clients obtiennent deux nouvelles métriques CloudWatch haute résolution, ConcurrentRequestsPerModel et ConcurrentRequestsPerModelCopy, qui permettent une mise à l'échelle automatique plus rapide. Ces métriques sont émises à intervalle de 10 secondes et fournissent une représentation plus précise de la charge sur le terminal en suivant la simultanéité réelle ou le nombre de demandes d'inférence en transit traitées par le modèle. Les clients peuvent créer des stratégies de dimensionnement automatique à l'aide de ces métriques haute résolution pour dimensionner leurs modèles déployés sur les terminaux SageMaker. Amazon SageMaker commencera à ajouter de nouvelles instances ou des copies de modèles en moins d'une minute lorsque les seuils définis dans ces stratégies de dimensionnement automatique seront atteints. Cela permet aux clients d'optimiser les performances et la rentabilité de leurs charges de travail d'inférence sur SageMaker.
Cette nouvelle fonctionnalité est accessible sur les familles d'instances d'accélérateurs (g4dn, g5, g6, p2, p3, p4d, p4de, p5, inf1, inf2, trn1n, trn1) dans toutes les régions AWS où Amazon SageMaker Inference est disponible, à l'exception des régions Chine et AWS GovCloud (US). Pour en savoir plus, consultez le blog AWS ML ainsi que notre documentation.