Amazon SageMaker HyperPod ahora admite el aprovisionamiento continuo de los clústeres orquestados por Slurm
Amazon SageMaker HyperPod ahora amplía la compatibilidad con el aprovisionamiento continuo a los clústeres mediante el orquestador Slurm, lo que permite una mayor flexibilidad y eficiencia a los clientes empresariales que ejecutan cargas de trabajo de entrenamiento de IA/ML a gran escala. Los clientes de IA/ML que ejecutan clústeres basados en Slurm deben comenzar el entrenamiento rápidamente, escalar sin problemas, realizar el mantenimiento sin interrumpir las operaciones y tener una visibilidad detallada de las operaciones del clúster. Anteriormente, si algún grupo de instancias no se podía aprovisionar por completo, toda la operación de creación o escalado del clúster fallaba y se revertía, lo que provocaba demoras y requería una intervención manual.
Con el aprovisionamiento continuo para Slurm, SageMaker HyperPod aprovisiona automáticamente la capacidad restante en segundo plano, mientras que los trabajos de entrenamiento pueden comenzar de inmediato en las instancias disponibles. El sistema utiliza el aprovisionamiento basado en prioridades para iniciar primero el nodo controlador de Slurm, seguido de los nodos de inicio de sesión y de trabajo en paralelo, de modo que el clúster alcance un estado operativo lo antes posible. HyperPod reintenta la ejecución de nodos fallidos de forma asincrónica y agrega nodos al clúster de Slurm automáticamente a medida que están disponibles, lo que garantiza que los clústeres alcancen de forma fiable la escala deseada sin necesidad de intervención manual. Ahora puede realizar operaciones de escalado simultáneas y sin bloqueos en varios grupos de instancias de forma simultánea; la falta de capacidad en un grupo de instancias ya no bloquea el escalado en otros. Estas capacidades ayudan a los clientes a reducir el tiempo de entrenamiento, maximizar la utilización de los recursos y centrarse en la innovación en lugar de en la administración de la infraestructura.
Esta característica está disponible para los nuevos clústeres de HyperPod de SageMaker que utilizan el orquestador Slurm. Para habilitar el aprovisionamiento continuo, establezca el parámetro NodeProvisioningMode en “Continuo” al crear nuevos clústeres de HyperPod con la API CreateCluster. El aprovisionamiento continuo también se puede habilitar al crear nuevos clústeres mediante AWS CLI y la consola de SageMaker AI.
Esta característica está disponible en todas las regiones de AWS en las que Amazon SageMaker HyperPod está disponible. Para obtener más información sobre el aprovisionamiento continuo para los clústeres de Slurm, consulte la Guía del usuario de Amazon SageMaker HyperPod.