Amazon SageMaker HyperPod がカスタム Kubernetes ラベルとテイントをサポート
Amazon SageMaker HyperPod がカスタム Kubernetes ラベルとテイントをサポートするようになったため、お客様はポッドのスケジューリングを制御し、既存の Kubernetes インフラストラクチャとシームレスに統合できます。EKS でオーケストレーションされた HyperPod クラスターに AI ワークロードをデプロイしているお客様は、EFA や NVIDIA GPU オペレーターなどのカスタムデバイスプラグインとの互換性を確保しつつ、システムポッドや AI 以外のワークロードによって高価な GPU リソースが消費されるのを防ぐために、ワークロードの配置を正確に制御する必要があります。以前は、お客様は kubectl を使用してラベルとテイントを手動で適用し、ノードの置換、スケーリング、パッチ適用のたびにそれらを再適用する必要があり、運用上の多大なオーバーヘッドが発生していました。
今回の機能により、CreateCluster API と UpdateCluster API を使用してインスタンスグループレベルでラベルとテイントを設定できるため、ノードのライフサイクル全体にわたってスケジューリングポリシーを定義および管理するためのマネージドアプローチが可能になります。新しい KubernetesConfig パラメータを使用すると、インスタンスグループごとに最大 50 個のラベルと 50 個のテイントを指定できます。ラベルはノードセレクターによるリソース編成とポッドターゲティングを可能にし、テイントは許容範囲に合わないポッドを排除して特殊なノードを保護します。たとえば、GPU インスタンスグループに NoSchedule テイントを適用して、許容範囲が明示された AI トレーニングジョブのみが高コストのコンピューティングリソースを消費するようにしたり、デバイスプラグインポッドが正しいスケジューリングを行えるようにカスタムラベルを追加したりできます。HyperPod は、ノード作成時にこれらの構成を自動的に適用し、置換、スケーリング、パッチ適用の操作を行っても構成を維持するため、手動による介入が不要になり、運用上のオーバーヘッドが軽減されます。
この機能は、Amazon SageMaker HyperPod が利用可能なすべての AWS リージョンで利用できます。カスタムラベルとテイントの詳細については、ユーザーガイドを参照してください。