Amazon SageMaker HyperPod ahora admite la administración automática de topologías para Slurm
Amazon SageMaker HyperPod ahora selecciona automáticamente y mantiene de forma continua la configuración de topología de red óptima para los clústeres de Slurm en función de los tipos de instancias de GPU del clúster. La topología de la red afecta directamente al rendimiento del entrenamiento distribuido: cuando los trabajos se asignan en nodos que están topológicamente cercanos, la comunicación de GPU a GPU es más rápida, las operaciones colectivas de NCCL son más eficientes y el rendimiento del entrenamiento mejora. HyperPod adapta dinámicamente la topología a medida que el clúster evoluciona mediante operaciones de escalado y reemplazos de nodos, por lo que la asignación de trabajos permanece optimizada durante todo el ciclo de vida del clúster sin necesidad de actualizar manualmente los archivos de topología ni de reconfigurar Slurm.
HyperPod inspecciona los tipos de instancias en todos los grupos de instancias al crear el clúster, identifica las características de red e interconexión de cada tipo de instancia y selecciona automáticamente el modelo de topología más adecuado. HyperPod admite la topología de árbol para los tipos de instancia con interconexiones jerárquicas, como ml.p5.48xlarge, ml.p5e.48xlarge y ml.p5en.48xlarge, y la topología de bloques para los tipos de instancia con conectividad uniforme de gran ancho de banda, como ml.p6e-gb200.NVL72. Para los clústeres con tipos de instancias mixtos, HyperPod selecciona una topología compatible que funcione en todos los nodos. A medida que el clúster cambia a través de eventos de escalado ascendente, descendente o reemplazo de nodos, HyperPod actualiza automáticamente la configuración de la topología sin intervención manual, de modo que la topología siempre refleja el estado real del clúster.
Para empezar, cree un clúster de SageMaker HyperPod Slurm con los tipos de instancias de GPU compatibles. La programación con reconocimiento de topología está habilitada de forma predeterminada y no requiere configuración.
Esta característica está disponible en todas las regiones de AWS en las que Amazon SageMaker HyperPod está disponible. Para obtener más información sobre la programación con reconocimiento de topología, consulte la documentación de Amazon SageMaker HyperPod