Amazon SageMaker AI prend désormais en charge l’inférence basée sur la capacité avec une fonction de repli automatique des instances

Publié le: 1 mai 2026

Les points de terminaison d’inférence Amazon SageMaker AI prennent désormais en charge un provisionnement flexible sur une liste hiérarchisée de types d’instances. Lorsque la capacité de votre type d’instance préféré est insuffisante, SageMaker AI effectue automatiquement le provisionnement à partir de l’option disponible suivante de votre liste, ce qui permet de garantir le bon fonctionnement de la création des points de terminaison et de la mise à l’échelle automatique sans intervention manuelle. Cela donne aux équipes qui déploient des modèles d’IA/ML en production la résilience nécessaire pour gérer les contraintes de capacité avec élégance, en garantissant que les points de terminaison fonctionnent de manière fiable et évoluent en fonction de la demande.

Grâce à la prise en charge des pools d’instances, vous définissez une liste hiérarchisée de types d’instances et SageMaker AI provisionne automatiquement la capacité en parcourant votre liste dans l’ordre. Cela s’applique à la création, aux mises à jour et à la mise à l’échelle des points de terminaison. Lors de la réduction d’échelle, SageMaker AI supprime d’abord les instances les moins prioritaires, préservant ainsi votre infrastructure préférée au fur et à mesure que la flotte se contracte. Cela fonctionne pour les points de terminaison à modèle unique, les points de terminaison basés sur des composants d’inférence et les points de terminaison d’inférence asynchrone, y compris les points de terminaison mis à l’échelle à zéro, que SageMaker AI provisionne à partir de votre pool disponible le plus prioritaire lors de la redimensionnement.

Étant donné que les types d’instances de secours diffèrent en termes de mémoire GPU et de capacité de calcul, vous pouvez spécifier un modèle optimisé différent pour chaque type d’instance de votre liste de priorités. Vous pouvez préparer ces artefacts vous-même ou utiliser les recommandations d’inférence de SageMaker AI, qui génèrent automatiquement des configurations optimisées spécifiques au matériel par type d’instance. En outre, les métriques CloudWatch par type d’instance vous donnent une visibilité sur la latence, le débit, l’utilisation du GPU et le nombre d’instances par type de matériel au sein d’un seul point de terminaison.


Cette capacité est disponible aujourd'hui dans les régions USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Canada (Centre), Amérique du Sud (São Paulo), Europe (Francfort), Europe (Irlande), Europe (Londres), Europe (Stockholm), Europe (Zurich), Asie-Pacifique (Jakarta), Asie-Pacifique (Mumbai), Asie-Pacifique (Séoul), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney) et Asie-Pacifique (Tokyo). Pour en savoir plus, consultez la documentation relative à Amazon SageMaker AI.