SageMaker HyperPod が分散型トレーニングワークロードのギャングスケジューリングのサポートを開始
Amazon SageMaker HyperPod タスクガバナンスがギャングスケジューリングをサポートするようになりました。これにより、分散型トレーニングジョブに必要なすべてのポッドがトレーニング開始前に利用可能となります。管理者はギャングスケジューリングを設定して、部分的なジョブの実行によるコンピューティングの無駄を防ぎ、リソースを待っているジョブによるデッドロックを回避できます。
EKS オーケストレーターを使用して Amazon SageMaker HyperPod クラスターで分散型 AI/ML トレーニングジョブを実行するデータサイエンティストには、ポッド間通信によってノード間で連携して動作する複数のポッドが必要になります。一部のポッドが起動するものの他のポッドが起動しない場合、ジョブは処理を行わずにリソースを保持し、他のワークロードはブロックされ、コストが増加する可能性があります。ギャングスケジューリングは、ワークロード内のすべてのポッドをモニタリングし、設定した時間内にすべてのポッドが利用可能にならない場合はワークロードをプルバックすることでこれを解決します。プルバックされたワークロードは、停止を防ぐために自動的に再キューされます。管理者は HyperPod Console で、ポッドが利用可能になるまでの待ち時間、ノード障害の処理方法、負荷の高いクラスターでのデッドロックを避けるためにワークロードを 1 つずつ許可するかどうか、再試行のスケジュール方法など、さまざまな設定を調整できます。
この機能は現在、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国東部 (オハイオ)、米国西部 (北カリフォルニア)、米国西部 (オレゴン)、アジアパシフィック (ムンバイ)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、アジアパシフィック (ジャカルタ)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (ストックホルム)、欧州 (スペイン)、南米 (サンパウロ) の各 AWS リージョンの EKS オーケストレーターを使用する Amazon SageMaker HyperPod クラスターで利用できます。
詳細については、SageMaker HyperPod ウェブページおよび HyperPod のタスクガバナンスのドキュメントをご覧ください。