- Machine Learning›
- Amazon SageMaker AI›
- Amazon SageMaker HyperPod
Amazon SageMaker HyperPod
数千の AI アクセラレーターで生成 AI モデル開発をスケールおよび加速する
SageMaker HyperPod とは?
Amazon SageMaker HyperPod は、生成 AI モデルの構築に伴う、差別化につながらない手間のかかる作業をなくします。数百または数千の AI アクセラレーターのクラスター全体で、トレーニング、ファインチューニング、推論などのモデル開発タスクを迅速にスケールするのに役立ちます。SageMaker HyperPod は、すべてのモデル開発タスクを一元的に管理できるようにします。これにより、さまざまなタスクの優先順位付け方法や各タスクへのコンピューティングリソースの割り当て方法に対する完全な可視性とコントロールが得られ、クラスターによる GPU および AWS Trainium の利用率を最大化し、イノベーションを加速するのに役立ちます。
大規模な分散型トレーニングに特化した設計
SageMaker HyperPod を使用すると、すべてのアクセラレーター間でトレーニングワークロードを効率的に分散および並列化できます。SageMaker HyperPod は、最適なパフォーマンスを迅速に実現できるよう、人気のある公開モデルに対して最適なトレーニング設定を自動的に適用します。また、クラスターでインフラストラクチャ障害が発生していないかを継続的にモニタリングし、問題を自動的に修復して、人間の介入なしにワークロードを回復します。これらすべてにより、トレーニング時間を最大 40% 短縮できます。
SageMaker HyperPod の利点
SageMaker HyperPod は、インフラストラクチャの障害を自動的に検出、診断、回復することでモデル開発のための回復力のある環境を提供します。これにより、中断することなく、数か月間にわたってモデル開発ワークロードを継続的に実行できます。SageMaker HyperPod のチェックポイントレストレーニングにより、チェックポイントベースのジョブレベルの再起動の必要性が緩和され、障害が発生してもトレーニングを進め続けることができます。これにより、復旧中のアイドル状態のコンピューティングコストを節約し、市場投入までの時間を数週間短縮できます。
SageMaker HyperPod タスクガバナンスイノベーションにより、トレーニング、ファインチューニング、実験、推論などのモデル開発タスク全体におけるコンピューティングリソースの割り当てに対して、完全な可視性とコントロールをもたらします。SageMaker HyperPod ではタスクキューが自動管理されるため、最も重要なタスクが優先され、スケジュールどおりに、かつ、予算内で完了されると同時に、コンピューティングリソースをより効率的に使用してモデル開発コストを最大 40% 削減できます。さらに、SageMaker HyperPod は、AI モデル開発タスクとコンピューティングリソース全体を一元的に可視化し、高度なオブザーバビリティをもたらします。
SageMaker HyperPod レシピを使用すると、あらゆるスキルレベルのデータサイエンティストやデベロッパーが最新のパフォーマンスの恩恵を受けることができ、公開されている基盤モデルのトレーニングとファインチューニングを数分ですぐに開始できます。さらに、Nova Micro、Nova Lite、Nova Pro などの Amazon Nova モデルをビジネス固有のユースケースに合わせて、業界トップクラスの価格パフォーマンスと低レイテンシーを維持しながら生成 AI アプリケーションの精度を向上させるためのレシピを使用して、カスタマイズできます。 Amazon Nova Forge は、Nova を使用して独自のフロンティアモデルを構築するための、極めて簡単かつ費用対効果の高い方法を組織に提供する初のプログラムです。
SageMaker HyperPod を使用すると、モデルとトレーニングデータセットを AWS クラスターインスタンス間で自動的に分割して、トレーニングワークロードを効率的にスケールできます。AWS ネットワークインフラストラクチャとクラスタートポロジ向けにトレーニングジョブを最適化するのに役立ちます。また、チェックポイントの保存頻度を最適化することでレシピを通じてモデルチェックポイントを合理化し、トレーニング中のオーバーヘッドが最小限に抑えられるようにします。
SageMaker HyperPod は、SageMaker JumpStart からのオープンウェイトモデルのデプロイと、Amazon Simple Storage Service (Amazon S3) および Amazon FSx からのファインチューニングされたモデルのデプロイを加速する上で役立ちます。自動プロビジョニング、タスクガバナンスによるコンピューティングリソース管理、リアルタイムのパフォーマンスモニタリング、強化されたオブザーバビリティにより、モデルデプロイタスクを合理化できます。