Amazon SageMaker HyperPod anuncia la compatibilidad con agentes de monitorización del estado para los clústeres de Slurm

Publicado en: 15 de sep de 2025

Amazon SageMaker HyperPod anuncia hoy la disponibilidad general del agente de monitorización del estado para los clústeres de Slurm. SageMaker HyperPod le ayuda a aprovisionar clústeres resilientes para ejecutar cargas de trabajo de machine learning (ML) y desarrollar modelos de última generación, como modelos de lenguaje de gran tamaño (LLM), modelos de difusión y modelos fundacionales (FM). El agente de supervisión del estado realiza comprobaciones pasivas y en segundo plano de las instancias para identificar problemas en áreas clave sin afectar al comportamiento o el rendimiento de las aplicaciones, marca los errores al instante y reemplaza cualquier instancia en mal estado para que sus trabajos de capacitación funcionen sin problemas. 

El agente se ejecuta de forma continua en todos los nodos basados en GPU o Trainium del clúster de HyperPod y está atento a los problemas de hardware, como las GPU que no responden o los contadores de errores de NVLink. Cuando se detecta un error, marca el nodo como en mal estado y lo reinicia automáticamente o lo reemplaza por un nodo en buen estado, lo que mantiene sus trabajos en ejecución sin necesidad de intervención manual. El agente también sigue un enfoque coordinado para gestionar los errores con la funcionalidad de reanudación automática de tareas disponible en los clústeres de Slurm. Por ejemplo, los trabajos con la reanudación automática habilitada continuarán desde el último punto de control guardado una vez que el agente sustituya los nodos. Esta recuperación sin intervención, que ya está disponible en los clústeres de HyperPod orquestados con Amazon EKS, ahora brinda a los clústeres de Slurm el mismo entorno resiliente, lo que ayuda a los equipos a entrenar modelos grandes durante semanas sin interrupciones y a recuperar el tiempo y los costos que, de otro modo, se perderían por fallas a mitad de ejecución. Además, los clientes ahora también pueden reiniciar sus nodos con un simple comando en caso de problemas intermitentes, como problemas con el controlador de la GPU que requieren un restablecimiento. 

El agente de monitorización del estado de Slurm está disponible en todas las regiones en las que HyperPod está disponible de forma general. El agente se habilita automáticamente en todos los clústeres de Slurm recién creados; para habilitarlo en un clúster existente, basta con actualizar a la última AMI de HyperPod llamando a la API UpdateClusterSoftware. Para obtener más información, consulte la documentación de Amazon SageMaker HyperPod.