Presentamos la supervisión del estado de la GPU y la reparación automática para las instancias administradas de Amazon ECS
Amazon Elastic Container Service (Amazon ECS) ahora ofrece funciones de reparación automática y supervisión del estado de las GPU de NVIDIA para las instancias administradas de Amazon ECS. La nueva capacidad detecta automáticamente las fallas críticas del hardware de la GPU de NVIDIA y reemplaza las instancias dañadas, lo que ayuda a los clientes a mejorar la disponibilidad y la confiabilidad de sus cargas de trabajo en contenedores aceleradas por la GPU.
La ejecución de cargas de trabajo aceleradas por GPU, como la inferencia de GenAI, requiere una administración de hardware especializada para mitigar las fallas y minimizar las interrupciones. Las instancias administradas de Amazon ECS ahora supervisan continuamente el estado de la GPU mediante NVIDIA Data Center GPU Manager (DCGM) y reemplazan de forma proactiva la capacidad dañada cuando se producen fallas críticas. Puede supervisar el estado de la GPU a través de la API DescribeContainerInstances y recibir notificaciones a través de Amazon EventBridge cuando las instancias se deterioren. En el caso de las cargas de trabajo en las que prefiera administrar el ciclo de vida de la instancia de forma manual, puede optar por no realizar la reparación automática a nivel del proveedor de capacidad y gestionar los eventos de error de la GPU con su propia lógica de corrección.
La reparación automática del estado de la GPU está habilitada de forma predeterminada en todas las instancias administradas de Amazon ECS que se ejecutan en los tipos de instancias de GPU de NVIDIA compatibles sin costo adicional. La capacidad está disponible en todas las regiones comerciales de AWS. Para obtener más información, consulte la Guía para desarrolladores de Amazon ECS.