AWS Batch 現在支援使用多節點平行作業在 Amazon EKS 上進行群組排程

張貼日期: 2024年7月11日

今天,AWS 宣布在 Amazon Elastic Kubernetes Service (Amazon EKS) 上的 AWS Batch 中全面推出多節點平行 (MNP) 作業。使用 AWS Batch MNP 作業,您可以執行緊密耦合的高效能運算 (HPC) 應用程式,例如訓練多層 AI/ML 模型。AWS Batch 可協助您在 Amazon EKS 叢集中啟動、設定和管理節點,無需手動干預。

您可以使用 RegisterJobsDefinition API 或透過 AWS Batch 管理主控台的作業定義區段來設定 MNP 作業。透過 MNP 作業,您可以在跨多個 Amazon Elastic Compute Cloud (Amazon EC2) 執行個體的 Amazon EKS 工作負載上,執行 AWS Batch。AWS Batch MNP 作業支援任何基於 IP 的執行個體間通訊架構,例如 NVIDIA Collective Communications Library (NCCL)、Gloo、Message Passing Interface (MPI) 或 Unified Collective Communication (UCC),以及機器學習和平行運算庫,例如 PyTorch 和 Dask。如需詳細資訊,請參閱《AWS Batch 使用者指南》中的多節點平行作業頁面。

AWS Batch 支援開發人員、科學家和工程師,在任何規模下執行高效率的批次處理,以進行 ML 模型訓練、模擬和分析。多節點平行作業可在任何提供 AWS Batch 的 AWS 區域中使用。