Présentation de la surveillance de l’état du GPU et de la réparation automatique pour les instances gérées Amazon ECS

Publié le: 22 avr. 2026

Amazon Elastic Container Service (Amazon ECS) propose désormais une fonctionnalité de surveillance de l’état des GPU NVIDIA et de réparation automatique pour les instances gérées Amazon ECS. La nouvelle fonctionnalité détecte automatiquement les défaillances matérielles critiques des GPU NVIDIA et remplace les instances endommagées, aidant ainsi les clients à améliorer la disponibilité et la fiabilité de leurs charges de travail conteneurisées accélérées par GPU.

L’exécution de charges de travail accélérées par GPU, telles que l’inférence GenAI, nécessite une gestion matérielle spécialisée pour atténuer les défaillances et minimiser les interruptions. Les instances gérées Amazon ECS surveillent désormais en permanence l’état du GPU à l’aide de NVIDIA Data Center GPU Manager (DCGM) et remplacent de manière proactive la capacité réduite en cas de panne critique. Vous pouvez surveiller l’état du GPU via l’API DescribeContainerInstances et recevoir des notifications via Amazon EventBridge lorsque les instances sont altérées. Pour les charges de travail pour lesquelles vous préférez gérer le cycle de vie des instances manuellement, vous pouvez désactiver la réparation automatique au niveau du fournisseur de capacité et gérer les événements d’erreur GPU selon votre propre logique de correction.

La réparation automatique de l’état du GPU est activée par défaut sur toutes les instances gérées Amazon ECS exécutées sur des types d’instances GPU NVIDIA pris en charge, sans frais supplémentaires. Cette fonctionnalité est à présent disponible dans toutes les Régions AWS commerciales. Pour en savoir plus, consultez le Guide du développeur d’Amazon ECS.