Amazon SageMaker HyperPod の特徴
何千もの AI アクセラレーターにわたって生成 AI モデル開発を拡張し、加速します
タスクガバナンス
Amazon SageMaker HyperPod は、トレーニングや推論などの生成 AI モデル開発タスク全体にわたって、コンピューティングリソースの割り当てに関する完全な可視性とコントロールを提供します。SageMaker HyperPod はタスクキューを自動的に管理し、コンピューティングリソースをより効率的に使用してモデル開発コストを削減しながら、最も重要なタスクが優先されるようにします。 管理者は、いくつかの簡単なステップで、さまざまなタスクの優先順位を定義し、各チームまたはプロジェクトが使用できるコンピューティングリソースの数の制限を設定できます。 その後、データサイエンティストとデベロッパーは、管理者が設定したコンピューティングリソースの制限と優先順位に従って、SageMaker HyperPod が自動的に実行するタスク (トレーニングの実行、特定のモデルのファインチューニング、トレーニング済みモデルの予測など) を作成します。優先度の高いタスクをすぐに完了する必要があるが、すべてのコンピューティングリソースが使用中である場合、SageMaker HyperPod は優先度の低いタスクからコンピューティングリソースを自動的に解放します。 さらに、SageMaker HyperPod は、待機中のタスクを加速するために、アイドル状態のコンピューティングリソースを自動的に使用します。SageMaker HyperPod は、実行中のタスクやコンピューティングリソースが使用可能になるのを待っているタスクを管理者がモニタリングおよび監査できるダッシュボードを提供します。
柔軟なトレーニングプラン
トレーニングのタイムラインと予算を満たすために、SageMaker HyperPod は、コンピューティングキャパシティの複数のブロックからコンピューティングリソースを使用する極めてコスト効率の高いトレーニングプランの作成をサポートします。トレーニングプランを承認すると、SageMaker HyperPod はインフラストラクチャを自動的にプロビジョニングし、これらのコンピューティングリソースでトレーニングジョブを実行します。手動による介入は不要です。ジョブをコンピューティングの可用性に合わせて調整するためのトレーニングプロセスの管理にかかる数週間分の労力を節約できます。
最適化されたレシピ
SageMaker HyperPod レシピは、あらゆるスキルセットのデータサイエンティストやデベロッパーが最新のパフォーマンスの恩恵を受けながら、Llama 3.1 405B、Mixtral 8x22B、Mistral 7B などの公開されている生成 AI モデルのトレーニングとファインチューニングをすぐに開始するのに役立ちます。各レシピには、AWS によってテストされたトレーニングスタックが含まれています。これにより、さまざまなモデル設定をテストする何週間もの煩雑な作業が不要になります。1 行のレシピ変更で GPU ベースと AWS Trainium ベースのインスタンスを切り替えたり、トレーニングの回復力を高めるために自動モデルチェックポイントを有効にしたり、SageMaker HyperPod において本番でワークロードを実行したりできます。
高性能分散トレーニング
SageMaker HyperPod は、モデルとトレーニングデータセットを AWS アクセラレーター間で自動的に分割することで、分散トレーニングを加速します。これは、AWS ネットワークインフラストラクチャとクラスタートポロジのトレーニングジョブを最適化するとともに、チェックポイントの保存頻度を最適化することでモデルのチェックポイントを効率化して、トレーニング中のオーバーヘッドを最小限に抑えるのに役立ちます。
高度な実験およびオブザーバビリティツール
SageMaker HyperPod の組み込み AI ツールを使用して、モデルパフォーマンスを改善できます。例えば、SageMaker でのマネージド TensorBoard は、モデルアーキテクチャを視覚化して収束の問題を特定および是正することで、開発時間を節約するのに役立ちます。Amazon CloudWatch Container Insights との統合は、クラスターのパフォーマンス、正常性、および使用状況に関するより深いインサイトを提供します。 SageMaker でのマネージド MLflow は、実験を大規模かつ効率的に管理するのに役立ちます。
ワークロードのスケジューリングとオーケストレーション
SageMaker HyperPod のユーザーインターフェイスは、Slurm または Amazon Elastic Kubernetes Service (Amazon EKS) を使用して高度にカスタマイズできます。必要なフレームワークやツールを選択してインストールできます。すべてのクラスターは、選択したインスタンスタイプとカウントでプロビジョニングされ、ワークロード全体で使用できるように保持されます。SageMaker HyperPod での Amazon EKS サポートにより、一貫した Kubernetes ベースの管理者エクスペリエンスを享受しながらクラスターを管理および運用できます。トレーニングからファインチューニング、推論まで、ワークロードを効率的に実行してスケールできます。コンピューティングキャパシティを共有し、異なるタイプのワークロードに合わせて Slurm と Amazon EKS を切り替えることもできます。
クラスタのヘルスチェックと自動修復
モデル開発ワークロード中にインスタンスで欠陥が発生した場合、SageMaker HyperPod はインフラストラクチャの問題を自動的に検出して対処します。障害のあるハードウェアを検出するために、SageMaker HyperPod は定期的にアクセラレーターとネットワークの整合性について一連のヘルスチェックを実行します。