Amazon SageMaker HyperPod が Slurm クラスター用のヘルスモニタリングエージェントのサポートを発表
本日、Amazon SageMaker HyperPod では、Slurm クラスター用のヘルスモニタリングエージェントの一般提供を発表しました。SageMaker HyperPod は、機械学習 (ML) ワークロードを実行したり、大規模言語モデル (LLM)、拡散モデル、基盤モデル (FM) などの最先端モデルを開発したりするための耐障害性の高いクラスターをプロビジョニングするのに役立ちます。ヘルスモニタリングエージェントは、アプリケーションの動作やパフォーマンスに影響を与えることなく、重要な領域での問題を特定するために、バックグラウンドでパッシブにインスタンスのヘルスチェックを実行します。また、障害を即座にフラグ付けし、異常なインスタンスを置き換えることで、トレーニングジョブをスムーズに実行できるようにします。
エージェントは、HyperPod クラスター内のすべての GPU または Trainium ベースのノードで継続的に実行され、応答しない GPU や NVLink エラーカウンターなどのハードウェアの問題を監視します。障害が検出されると、ノードに異常を示すマークが付けられ、自動的に再起動されるか正常なノードに置き換えられるため、手動で操作しなくてもジョブを実行し続けることができます。また、エージェントは Slurm クラスターで利用可能なジョブの自動再開機能を使用し、その機能と連携したアプローチで障害を処理します。例えば、自動再開が有効になっているジョブは、ノードがエージェントに置き換えられた後、最後に保存されたチェックポイントから続行されます。このハンズフリーのリカバリ機能は、Amazon EKS でオーケストレーションされた HyperPod クラスターで既に提供されていましたが、今回 Slurm クラスターでも同様の回復力のある環境が利用可能になりました。これにより、チームは大規模モデルを数週間にわたって中断なくトレーニングできるようになり、実行中の障害によって失われていたはずの時間とコストを有効に活用できるようになりました。さらに、リセットが必要な GPU ドライバーの問題など、断続的な問題が発生した場合、簡単なコマンドを使用してノードを再起動できるようになりました。
Slurm 用のヘルスモニタリングエージェントは、HyperPod が一般提供されているすべてのリージョンで利用できます。エージェントは、新しく作成されたすべての Slurm クラスターで自動的に有効になります。既存のクラスターでは、UpdateClusterSoftware API を呼び出して最新の HyperPod AMI にアップグレードすることで、有効にできます。詳細については、Amazon SageMaker HyperPod のドキュメントを参照してください。