基盤モデル開発をスケールするための Amazon SageMaker HyperPod における Amazon EKS のサポート

投稿日: 2024年9月10日

SageMaker HyperPod で Amazon EKS サポートが一般提供されることをお知らせいたします。これにより、お客様は、モデルのトレーニング時間を最大 40% 短縮する基盤モデル (FM) 開発専用インフラストラクチャである SageMaker HyperPod で Kubernetes ワークロードを実行および管理できます。

Kubernetes の移植性、スケーラビリティ、豊富なツールエコシステムにより、多くのお客様が ML ワークフローのオーケストレーションに Kubernetes を使用しています。これらのお客様は、Kubernetes の使い慣れたインターフェイスを引き続き使用することとともに、ハードウェア障害を自動的に管理する方法も求めています。HyperPod での EKS のサポートは、セルフヒーリング性能の高いクラスターを提供する SageMaker HyperPod の利点と、マネージド型 Kubernetes サービスである Amazon EKS のコンテナ化機能を組み合わせたものです。今回のリリースにより、お客様はクラスターの作成中にディープヘルスチェックを実行して、トレーニング中の障害を減らすことができます。さらに、HyperPod は障害のあるノードを自動的に置き換え、AWS Trainium と Nvidia GPU の両方で、1,000 以上のアクセラレーターのスケールで最後のチェックポイントからトレーニングを再開します。ワークロードの送信、管理、監視には、新しい HyperPod CLI またはお好みのツールを柔軟に使用できます。永続的なクラスター環境では、ssm アクセスが可能で、クラスターをカスタマイズできます。また、EKS でオーケストレーションされた HyperPod クラスターは CloudWatch Container Insights とも統合されます。これにより、HyperPod ノードのヘルスステータスを自動検出し、キュレーションされたダッシュボードで可視化することで、すぐに使用できるオブザーバビリティを提供します。

このリリースは、欧州 (ロンドン) 以外の SageMaker HyperPod が利用可能な AWS リージョンで一般提供されています。

詳細については、ウェブページAWS ニュースブログドキュメントGithub リポジトリのリソースリストを参照してください。