AWS Batch unterstützt jetzt das Gang-Scheduling auf Amazon EKS mithilfe von parallelen Aufträgen mit mehreren Knoten

Veröffentlicht am: 11. Juli 2024

Heute kündigte AWS die allgemeine Verfügbarkeit von Multi-Node Parallel (MNP)-Jobs in AWS Batch auf Amazon Elastic Kubernetes Service (Amazon EKS) an. Mit AWS Batch MNP-Jobs können Sie eng gekoppelte High Performance Computing (HPC)-Anwendungen ausführen, z. B. das Training mehrschichtiger KI/ML-Modelle. AWS Batch hilft Ihnen Knoten in Ihrem Amazon-EKS-Cluster zu starten, zu konfigurieren und zu verwalten, ohne dass ein manuelles Eingreifen erforderlich ist.

Sie können MNP-Jobs über die API RegisterJobsDefinition oder über die Abschnitte zur Auftragsdefinitionen in der AWS-Batch-Managementkonsole konfigurieren. Mit MNP-Jobs können Sie AWS Batch auf Amazon-EKS-Workloads ausführen, die sich über mehrere Amazon Elastic Compute Cloud (Amazon EC2)-Instances erstrecken. AWS Batch MNP-Jobs unterstützen jedes IP-basierte Kommunikations-Framework zwischen Instances wie NVIDIA Collective Communications Library (NCCL), Gloo, Message Passing Interface (MPI) oder Unified Collective Communication (UCC) sowie Bibliotheken für Machine Learning und parallele Datenverarbeitungsbibliotheken wie PyTorch und Dask. Weitere Informationen finden Sie auf der Seite parallele Aufträge mit mehreren Knoten im AWS-Batch-Benutzerhandbuch.

AWS Batch unterstützt Entwickler, Wissenschaftler und Ingenieure bei der Durchführung einer effizienten Batch-Verarbeitung für ML-Modelltraining, Simulationen und Analysen in jeder Größenordnung. Multi-Node-Parallel-Jobs sind in jeder AWS-Region verfügbar, in der AWS Batch verfügbar ist.