SageMaker HyperPod unterstützt jetzt Gang Scheduling für verteilte Trainingsworkloads
Amazon SageMaker HyperPod Aufgaben-Governance unterstützt jetzt Gang Scheduling, wodurch sichergestellt wird, dass alle Pods, die für einen verteilten Trainingsjob benötigt werden, bereit sind, bevor das Training beginnt. Administratoren können Gang Scheduling konfigurieren, um zu verhindern, dass Rechenleistung bei teilweisen Jobausführungen verschwendet wird, und Deadlocks durch Jobs, die auf Ressourcen warten, vermieden werden.
Datenwissenschaftler, die verteilte KI/ML-Trainingsjobs auf Clustern von Amazon SageMaker HyperPod mithilfe des EKS-Orchestrators ausführen, benötigen mehrere Pods, die knotenübergreifend mit Pod-to-Pod-Kommunikation zusammenarbeiten. Wenn einige Pods starten, andere jedoch nicht, können Jobs Ressourcen beanspruchen, ohne Fortschritte zu machen, andere Workloads blockieren und die Kosten erhöhen. Gang Scheduling löst dieses Problem, indem alle Pods in einem Workload überwacht werden und der Workload zurückgezogen wird, wenn nicht alle Pods innerhalb einer festgelegten Zeit bereit sind. Zurückgezogene Workloads werden automatisch in die Warteschlange gestellt, um Verzögerungen zu verhindern. Administratoren können Einstellungen in der HyperPod-Konsole anpassen, z. B. wie lange gewartet werden soll, bis die Pods bereit sind, wie mit Knotenausfällen umgegangen wird, ob Workloads einzeln zugelassen werden sollen, um Deadlocks auf stark frequentierten Clustern zu vermeiden, und wie Wiederholungen geplant werden.
Diese Funktion ist derzeit für Amazon-SageMaker-HyperPod-Cluster verfügbar, die den EKS-Orchestrator in den folgenden AWS-Regionen verwenden: USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Asien-Pazifik (Mumbai), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney) und Asien-Pazifik (Tokio), Asien-Pazifik (Jakarta), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Stockholm), Europa (Spanien) und Südamerika (São Paulo).
Weitere Informationen finden Sie auf der SageMaker-HyperPod-Webseite und in der Dokumentation zur HyperPod-Aufgaben-Governance.