Amazon SageMaker HyperPod ahora admite comprobaciones de estado exhaustivas bajo demanda

Publicado en: 17 de abr de 2026

Amazon SageMaker HyperPod ahora admite comprobaciones de estado exhaustivas bajo demanda para los clústeres orquestados por Amazon EKS y Slurm, lo que le permite verificar de forma proactiva el estado del acelerador de GPU en las instancias en ejecución en cualquier momento. Los clústeres orquestados por HyperPod Slurm ahora también admiten comprobaciones de estado exhaustivas durante el aprovisionamiento de nodos, en el momento de la creación del clúster. Esta capacidad aborda un desafío crítico en el que incluso un solo nodo en mal estado puede desperdiciar horas de tiempo de procesamiento y retrasar las cargas de trabajo críticas.

Con las comprobaciones de estado exhaustivas bajo demanda, puede dirigirse a grupos de instancias enteros o a instancias específicas para ejecutar pruebas de estrés de hardware y de conectividad exhaustivas antes de asignar recursos informáticos a un trabajo. El progreso y los resultados son visibles tanto a nivel de grupo de instancias como de instancia a través de la consola y las API de SageMaker, lo que proporciona una visibilidad completa del estado de la GPU, la conectividad de red y el rendimiento de la comunicación multinodo. Las instancias que se están comprobando se aíslan automáticamente de la programación de la carga de trabajo y se devuelven al servicio una vez aprobadas. Cuando se combina con la capacidad de recuperación automática de nodos de HyperPod, las instancias que fallan se reinician o reemplazan automáticamente, lo que garantiza el buen estado del clúster.

Esta capacidad se encuentra disponible en todas las regiones en las que se ofrece Amazon SageMaker HyperPod. Para obtener más información sobre las comprobaciones de estado bajo demanda, consulte la documentación.