Amazon SageMaker HyperPod がプログラムによるノードの再起動と置換をサポート
本日、Amazon SageMaker HyperPod は、SageMaker HyperPod クラスターノードのプログラムによる再起動と置換を可能にする新しい API の一般提供を発表しました。SageMaker HyperPod は、機械学習 (ML) ワークロードを実行したり、大規模言語モデル (LLM)、拡散モデル、基盤モデル (FM) などの最先端モデルを開発したりするための耐障害性の高いクラスターをプロビジョニングするのに役立ちます。新しい BatchRebootClusterNodes と BatchReplaceClusterNodes API を使用すると、応答しないクラスタノードやパフォーマンスが低下したクラスタノードをプログラム的に再起動または置換できるため、オーケストレーターに依存しない一貫したアプローチでノードリカバリ操作を行うことができます。
新しい API は、Slurm と EKS 両方のオーケストレーションされたクラスターのノード管理機能を強化し、既存のノードの再起動と置換のワークフローを補完します。EKS クラスター用の Kubernetes ラベルや Slurm クラスター用の Slurm コマンドなど、オーケストレーター固有の既存の方式は、これらの専用 API を介して再起動および置換の操作を行う新しく導入されたプログラム機能とともに引き続き使用できます。メモリオーバーランやハードウェアのパフォーマンス低下などの問題が原因でクラスターノードが応答しなくなった場合、ノードの再起動や置換などの復旧操作が必要になる場合があり、これらの新しい API を使用してその操作を開始できます。これらの機能は、時間に敏感なワークロードを実行する場合に特に役立ちます。たとえば、Slurm コントローラー、ログイン、またはコンピューティングノードが応答しなくなった場合、管理者は API を使用して再起動操作をトリガーし、その進行状況を監視してノードを動作状態に戻すことができます。同様に、EKS クラスター管理者はパフォーマンスが低下したワーカーノードをプログラムで置き換えることができます。各 API は最大 25 インスタンスのバッチ操作をサポートしているため、大規模な復旧シナリオを効率的に管理できます。
再起動と置換の API は現在、SageMaker HyperPod が利用可能な 3 つの AWS リージョン (米国東部 (オハイオ)、アジアパシフィック (ムンバイ)、およびアジアパシフィック (東京)) でサポートされています。API には、AWS CLI、SDK、または API コールを通じてアクセスできます。詳細については、Amazon SageMaker HyperPod のドキュメントで BatchRebootClusterNodes と BatchReplaceClusterNodes を参照してください。