Publié le: May 10, 2023

Nous avons le plaisir d'annoncer aujourd'hui la disponibilité générale du support de la simultanéité allouée pour l’inférence sans serveur Amazon SageMaker. La simultanéité allouée vous permet de déployer des modèles sur des points de terminaison sans serveur avec des performances prévisibles et une capacité de mise à l’échelle élevée. Vous pouvez ajouter de la simultanéité allouée à vos points de terminaison sans serveur et, pour une quantité prédéfinie de simultanéité allouée, SageMaker veillera à ce que les points de terminaison soient prêts à répondre instantanément aux demandes. La simultanéité allouée est idéale pour les clients dont le trafic est prévisible et dont le débit est faible.

Avec les points de terminaison sans serveur à la demande, si votre point de terminaison ne reçoit pas de trafic pendant un certain temps et qu'il reçoit soudainement de nouvelles demandes, il peut mettre un certain temps à mobiliser les ressources de calcul nécessaires au traitement des demandes. C'est ce qu'on appelle un démarrage à froid. Un démarrage à froid peut également se produire si vos demandes simultanées dépassent l'utilisation actuelle des demandes simultanées. Pour réduire la variabilité de votre profil de latence, vous pouvez éventuellement activer la simultanéité allouée pour vos points de terminaison sans serveur. Grâce à la simultanéité allouée, vos points de terminaison sans serveur sont toujours prêts et peuvent traiter instantanément des pics de trafic jusqu'au nombre configuré de simultanéité allouée, sans aucun démarrage à froid.

Vous pouvez activer la simultanéité allouée pour les points de terminaison sans serveur depuis la console AWS, les kits SDK AWS ou l'interface de ligne de commande AWS (AWS CLI). La simultanéité allouée pour l’inférence sans serveur Amazon SageMaker est généralement disponible dans toutes les régions AWS où l’inférence sans serveur Amazon SageMaker est généralement disponible.