Amazon SageMaker HyperPod ahora admite el reinicio y el reemplazo programáticos de nodos

Publicado en: 26 de nov de 2025

Amazon SageMaker HyperPod anuncia hoy la disponibilidad general de nuevas API que permiten el reinicio programático y la sustitución de los nodos del clúster de SageMaker HyperPod. SageMaker HyperPod lo ayuda a aprovisionar clústeres resilientes para ejecutar cargas de trabajo de machine learning (ML) y desarrollar modelos de última generación, como modelos de lenguaje de gran tamaño (LLM), modelos de difusión y modelos fundacionales (FM). Las nuevas API BatchRebootClusterNodes y BatchReplaceClusterNodes permiten a los clientes reiniciar o reemplazar de forma programática los nodos de clústeres degradados o que no responden. De esta manera, se ofrece un enfoque coherente e independiente del orquestador para las operaciones de recuperación de nodos.

Las nuevas API mejoran las capacidades de administración de nodos para los clústeres orquestados de Slurm y EKS, complementando los flujos de trabajo existentes de reinicio y reemplazo de nodos. Los métodos específicos de orquestador existentes, como las etiquetas de Kubernetes para los clústeres de EKS y los comandos de Slurm para los clústeres de Slurm, siguen disponibles junto con las funciones programáticas recientemente introducidas para las operaciones de reinicio y reemplazo a través de estas API diseñadas específicamente. Cuando los nodos del clúster dejan de responder debido a problemas como el exceso de memoria o la degradación del hardware, pueden ser necesarias operaciones de recuperación, como el reinicio y el reemplazo de nodos, y pueden iniciarse a través de estas nuevas API. Estas capacidades son particularmente valiosas cuando se ejecutan cargas de trabajo urgentes. Por ejemplo, cuando un controlador, inicio de sesión o nodo de computación de Slurm deja de responder, los administradores pueden iniciar una operación de reinicio mediante la API y monitorear su progreso para que los nodos vuelvan al estado operativo. Del mismo modo, los administradores de clústeres de EKS pueden reemplazar los nodos de trabajo degradados mediante programación. Cada API admite operaciones por lotes de hasta 25 instancias. Esto permite una administración eficiente de escenarios de recuperación a gran escala.

Las API de reinicio y reemplazo son compatibles actualmente en tres regiones de AWS en las que SageMaker HyperPod está disponible: este de EE. UU. (Ohio), Asia-Pacífico (Mumbai) y Asia-Pacífico (Tokio). Se puede acceder a las API mediante la CLI, el SDK o las llamadas a la API de AWS. Para obtener más información, consulte la documentación de Amazon SageMaker HyperPod para BatchRebootClusterNodes y BatchReplaceClusterNodes.