Amazon SageMaker HyperPod がオンデマンドのディープヘルスチェックのサポートを開始
Amazon SageMaker HyperPod は、Amazon EKS と Slurm でオーケストレーションされたクラスター向けに、オンデマンドのディープヘルスチェックをサポートするようになりました。これにより、実行中のインスタンス上で GPU アクセラレータの正常性をいつでもプロアクティブに検証できます。HyperPod Slurm でオーケストレーションされたクラスターでは、クラスター作成時のノードプロビジョニング中にもディープヘルスチェックがサポートされるようになりました。この機能は、異常なノードが 1 つでもあると何時間ものコンピューティング処理が無駄になり、重要なワークロードを遅延させる可能性があるという重大な課題に対処するものです。
オンデマンドのディープヘルスチェックでは、コンピューティングリソースをジョブに割り当てる前に、インスタンスグループ全体または特定のインスタンスを対象として、包括的なハードウェアストレステストと接続テストを実行できます。進捗状況と結果は、SageMaker コンソールと API を通じてインスタンスグループレベルとインスタンスレベルの両方で表示でき、GPU の正常性、ネットワーク接続、マルチノード通信パフォーマンスを完全に可視化できます。チェック中のインスタンスは、ワークロードのスケジューリングから自動的に分離され、チェックに合格するとサービスに復帰します。HyperPod の自動ノードリカバリ機能と組み合わせると、チェックで不合格だったインスタンスは自動的に再起動または置換され、クラスターの正常性が確保されます。
この機能は、Amazon SageMaker HyperPod を利用できるリージョンすべてで利用可能です。オンデマンドヘルスチェックの詳細については、ドキュメントを参照してください。