Container Insights が EKS 上での SageMaker HyperPod ノードヘルスオブザーバビリティの提供を開始

投稿日: 2024年9月10日

Amazon CloudWatch Container Insights が EKS 上で稼働している SageMaker HyperPod ノードのヘルスステータスを自動検出し、キュレーションされたダッシュボードで可視化できるようになりました。これにより、ノードの可用性をモニタリングして運用効率を高めることができます。すぐに使用できるダッシュボードを使用すると、異常なノードを簡単に特定し、迅速に対処することができ、効率的なトレーニング期間を実現できます。

Container Insights は SageMaker と連携して、HyperPod ノードのディープヘルスチェックのテスト結果を収集し、事前設定されたダッシュボードに表示します。これにより、ノードの状態とパフォーマンスを理解し、スケジューリングの準備ができているかどうかを識別できます。Container Insights は、障害が発生したノードを「再起動保留中」と「置換保留中」に分類し、ノードの自動置換が無効になっている場合にノードの正常性を維持するようにガイドすることで、トレーニング期間の最適化を支援します。自動回復を有効にすると、ノードの変更やトレーニングジョブの遅延を可視化し、最後のチェックポイントからタスクがどのように再開されるかを把握できます。

Container Insights を使い始めるのは簡単です。CloudWatch Observability EKS アドオンまたは最新の CloudWatch エージェントをクラスターにインストールするか、最新の CloudWatch エージェントバージョンで Helm チャートをアップグレードすることでオンボーディングできます。設定が完了すると、Container Insights コンソールに移動して、SageMaker Hyperpod ノードのヘルスステータスをすぐに表示できます。

SageMaker HyperPod ノードのヘルスオブザーバビリティは、SageMaker HyperPod が存在するすべての商用リージョンの EKS 用 Container Insights で利用できるようになりました。HyperPod ノードヘルスのメトリクスは、観測ベースの料金に従います。詳細については、Container Insights の料金表ページをご覧ください。その他の詳細については Container Insights ユーザーガイドをご覧ください。