SageMaker HyperPod ahora admite la programación en grupo para cargas de trabajo de entrenamiento distribuidas
La gobernanza de tareas de Amazon SageMaker HyperPod ahora admite la programación en grupo, lo que garantiza que todos los pods necesarios para un trabajo de entrenamiento distribuido estén listos antes de que comience el entrenamiento. Los administradores pueden configurar la programación en grupo para evitar el desperdicio de procesamiento debido a la ejecución parcial de trabajos y evitar los bloqueos de los trabajos en espera de recursos.
Los científicos de datos que ejecutan trabajos de entrenamiento distribuidos de inteligencia artificial y aprendizaje automático (IA/ML) en clústeres de Amazon SageMaker HyperPod que utilizan el orquestador EKS necesitan varios pods para trabajar juntos en todos los nodos con comunicación de pod a pod. Cuando algunos pods se inician pero otros no, los trabajos pueden retener los recursos sin avanzar, bloquear otras cargas de trabajo y aumentar los costos. La programación en grupo resuelve este problema supervisando todos los pods de una carga de trabajo y retirando la carga de trabajo si no todos los pods están listos en un tiempo determinado. Las cargas de trabajo retiradas se vuelven a poner en cola automáticamente para evitar que se detengan. Los administradores pueden ajustar la configuración de la consola HyperPod, por ejemplo, cuánto tiempo deben esperar a que los pods estén listos, cómo gestionar los errores de los nodos, si se deben admitir las cargas de trabajo de una en una para evitar bloqueos en clústeres ocupados y cómo se programan los reintentos.
Esta capacidad está disponible actualmente para los clústeres de Amazon SageMaker HyperPod que usan el orquestador EKS en las siguientes regiones de AWS: Este de EE. UU. (norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Asia-Pacífico (Mumbai), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Tokio), Asia-Pacífico (Yakarta), Europa (Fráncfort), Europa (Irlanda),Europa (Londres), Europa (Estocolmo), Europa (España) y América del Sur (São Paulo).
Para más información, visite la página web de HyperPod de SageMaker y la documentación de gobernanza de tareas de HyperPod.