Amazon SageMaker HyperPod がコンソールからのノードアクションのサポートを開始
Amazon SageMaker HyperPod では、AWS コンソールから個々のクラスターノードを直接管理できるようになりました。大規模な AI/ML ワークロードを管理する HyperPod クラスターオペレーターは、トラブルシューティング、応答しないインスタンスの再起動、または機能低下したノードの置換のためにノードに接続する必要があることがよくあります。以前は、ノードへの接続には SSM 接続文字列を手動でコンストラクトする必要があり、再起動や置換などのノード回復アクションには CLI コマンドが必要でした。コンソールでは、すべてのノードアクションを単一のインターフェイスで実行できるようになりました。
コンソールのノードアクションにより、AWS Systems Manager (SSM) を介して任意のノードに接続できるようになりました。コンソールでは、クリップボードへのコピーをサポートする事前入力済みの SSM CLI コマンドと、コンソールからの直接 SSM セッション起動が提供されます。SageMaker HyperPod クラスターは既に、異常のあるインスタンスの自動置換と再起動をサポートしていますが、メモリオーバーランや検出できないハードウェアの劣化など、手動による介入が必要になるシナリオもあります。コンソールのノードアクションでは、一時的な問題からの復旧、異常なノードの削除、ノードの置換のために手動でノードを再起動する一貫したアプローチが提供されます。バッチオペレーションでは複数のノードアクションを同時に実行できるため、数分でノードの問題を解決できます。この機能は、ダウンタイムを最小限に抑えることが不可欠な、時間的制約のある AI トレーニングや推論ワークロードを実行する場合に特に役立ちます。
この機能は、Amazon SageMaker HyperPod がサポートされているすべての AWS リージョンで利用できます。これらのノードアクションはすべて、コンソールの HyperPod クラスター管理ページで実行できます。置換または再起動とノードへの接続の詳細については、それぞれのリンクをクリックしてください。