AWS Batch がマルチノードの並列ジョブを使用した Amazon EKS でのギャングスケジューリングのサポートを開始
本日、AWS は Amazon Elastic Kubernetes Service (Amazon EKS) 上の AWS Batch でのマルチノード並列 (MNP) ジョブの一般提供を発表しました。AWS Batch MNP ジョブを使用すると、多層 AI/ML モデルのトレーニングなど、密結合のハイパフォーマンスコンピューティング (HPC) アプリケーションを実行できます。AWS Batch を使用すると、手動操作なしで Amazon EKS クラスター内のノードを起動、設定、管理するのに役立ちます。
MNP ジョブの設定は、RegisterJobsDefinition API を使用するか、AWS Batch マネジメントコンソールのジョブ定義セクションを使用することによって行えます。MNP ジョブを使用すると、複数の Amazon Elastic Compute Cloud (Amazon EC2) インスタンスにまたがる Amazon EKS ワークロードで AWS Batch を実行できます。AWS Batch MNP ジョブは、NVIDIA Collective Communications Library (NCCL)、Gloo、Message Passing Interface (MPI)、Unified Collective Communication (UCC) などの IP ベースのインスタンス間通信フレームワークに加えて、PyTorch や Dask などの機械学習および並列コンピューティングライブラリもサポートします。詳細については、AWS Batch ユーザーガイドの「マルチノードの並列ジョブ」ページを参照してください。
AWS Batch は、開発者、科学者、エンジニアが、ML モデルのトレーニング、シミュレーション、分析のための効率的なバッチ処理をあらゆる規模で実行できるようサポートします。マルチノードの並列ジョブは、AWS Batch が利用可能なすべての AWS リージョンで利用できます。