Amazon SageMaker HyperPod ahora admite la configuración de Slurm basada en API
Amazon SageMaker HyperPod ahora admite la configuración de Slurm basada en API, lo que le permite definir la topología de Slurm y las configuraciones del sistema de archivos compartidos directamente en el clúster, crear y actualizar las API o mediante la consola de AWS. SageMaker HyperPod lo ayuda a aprovisionar clústeres resilientes para ejecutar cargas de trabajo de machine learning (ML) y desarrollar modelos de última generación, como modelos de lenguaje de gran tamaño (LLM), modelos de difusión y modelos fundacionales (FM).
Con esta nueva configuración basada en API, ahora puede especificar los tipos de nodos de Slurm, incluidos Controller, Login y Compute para grupos de instancias de clústeres; mapeos de grupos de instancias a particiones; y FSx para Lustre y FSx para montajes de sistemas de archivos OpenZFS por grupo de instancias, directamente en la definición de la API de clúster o a través de la sección de configuración avanzada de la consola de AWS. Cuando modifica las asignaciones de nodos de partición directamente en los archivos de configuración nativos de Slurm para refinar las asignaciones de recursos del clúster, las configuraciones de nodos de partición de Slurm pueden desviarse del punto de vista de HyperPod. Una nueva estrategia a nivel de clúster (SlurmConfigStrategy) le ayuda a gestionar la desviación con tres opciones: Gestionar, Sobrescribir y Fusionar. La estrategia administrada le permite administrar completamente las asignaciones de grupos de instancias a particiones a través de la API o la consola, y detecta automáticamente las desviaciones en las asignaciones de partición a nodo durante las operaciones de escalado ascendente o descendente. Cuando se detecta una desviación, las actualizaciones del clúster se detienen hasta que se resuelva pasando a la estrategia de sobrescritura para forzar las asignaciones definidas por la API, a la estrategia de fusión para preservar las personalizaciones manuales o al actualizar directamente las configuraciones de Slurm para alinearlas con HyperPod.
La configuración de Slurm basada en API está disponible en todas las regiones de AWS en las que SageMaker HyperPod está disponible. Para empezar, puede usar la consola de administración de AWS, la CLI de AWS, AWS CloudFormation o los SDK de AWS. Para obtener más información, consulte la documentación de Amazon SageMaker HyperPod para crear clústeres mediante la consola o la CLI, y la referencia de API para CreateCluster y UpdateCluster.