Los clústeres de Slurm de Amazon SageMaker HyperPod ahora admiten la especificación de requisitos mínimos de capacidad con aprovisionamiento continuo

Publicado en: 27 de may de 2026

Amazon SageMaker HyperPod ahora admite los requisitos de capacidad mínima (minCount) para los clústeres que utilizan la orquestación de Slurm con aprovisionamiento continuo. Con el aprovisionamiento continuo, HyperPod aprovisiona los clústeres con capacidad parcial disponible para que usted pueda iniciar tus trabajos de IA y ML rápidamente, sin dejar de aprovisionar las instancias restantes de forma asincrónica en segundo plano. Si bien esto proporciona flexibilidad, algunas cargas de trabajo de entrenamiento requieren un número mínimo garantizado de nodos antes de que puedan iniciarse de manera efectiva. El parámetro MinCount le permite especificar la cantidad mínima de instancias que se deben aprovisionar correctamente antes de que un grupo de instancias pase al estado InService, lo que le brinda un mayor control sobre cuándo su clúster está disponible para la programación de trabajos.

Esto es particularmente útil para cargas de trabajo de entrenamiento distribuidas que utilizan marcos como PyTorch FSDP, Megatron-LM o NVIDIA NeMo, donde los trabajos de entrenamiento suelen configurarse con un número fijo de nodos participantes y es posible que no se inicien de manera eficiente o correcta con una capacidad de clúster parcial. También beneficia a los equipos que necesitan garantizar un recuento de GPU de referencia para cumplir los objetivos de rentabilidad o de SLA antes de comprometerse con una sesión de entrenamiento.

Puede especificar el parámetro minInstanceCount en la solicitud de la API CreateCluster o UpdateCluster para establecer un umbral de capacidad mínimo para un grupo de instancias. El grupo de instancias permanece en estado de creación o actualización hasta que se alcanza el umbral, luego pasa a InService y los nodos están disponibles para la programación de trabajos de Slurm. HyperPod continúa ejecutando instancias adicionales más allá del parámetro MinCount hasta alcanzar el recuento objetivo. Si no puede alcanzarse el parámetro minCount en un plazo de 3 horas, el sistema revierte automáticamente el grupo de instancias a su último estado válido conocido.

MinCount para clústeres de Slurm con aprovisionamiento continuo está disponible en todas las regiones de AWS en las que se admite Amazon SageMaker HyperPod. Para empezar a especificar los requisitos mínimos de capacidad para su clúster, consulte los requisitos mínimos de capacidad (MinCount) en la documentación de Amazon SageMaker AI.