メインコンテンツに移動

Amazon SageMaker HyperPod

Amazon SageMaker HyperPod

数千の AI アクセラレーターで生成 AI モデル開発をスケールおよび加速する

SageMaker HyperPod とは?

Amazon SageMaker HyperPod は、生成 AI モデルの構築に伴う、差別化につながらない手間のかかる作業をなくします。数百または数千の AI アクセラレーターのクラスター全体で、トレーニング、ファインチューニング、推論などのモデル開発タスクを迅速にスケールするのに役立ちます。SageMaker HyperPod は、すべてのモデル開発タスクを一元的に管理できるようにします。これにより、さまざまなタスクの優先順位付け方法や各タスクへのコンピューティングリソースの割り当て方法に対する完全な可視性とコントロールが得られ、クラスターによる GPU および AWS Trainium の利用率を最大化し、イノベーションを加速するのに役立ちます。

大規模な分散型トレーニングに特化した設計

SageMaker HyperPod を使用すると、すべてのアクセラレーター間でトレーニングワークロードを効率的に分散および並列化できます。SageMaker HyperPod は、最適なパフォーマンスを迅速に実現できるよう、人気のある公開モデルに対して最適なトレーニング設定を自動的に適用します。また、クラスターでインフラストラクチャ障害が発生していないかを継続的にモニタリングし、問題を自動的に修復して、人間の介入なしにワークロードを回復します。これらすべてにより、トレーニング時間を最大 40% 短縮できます。

SageMaker HyperPod の利点

SageMaker HyperPod タスクガバナンスイノベーションは、トレーニングや推論などの生成 AI モデル開発タスク全体におけるコンピューティングリソースの割り当てに対する完全な可視性とコントロールを提供します。SageMaker HyperPod ではタスクキューが自動管理されるため、最も重要なタスクが優先され、スケジュールどおりに、かつ、予算内で完了されると同時に、コンピューティングリソースをより効率的に使用してモデル開発コストを最大 40% 削減できます。

SageMaker HyperPod のレシピを使用すると、あらゆるスキルセットのデータサイエンティストやデベロッパーは、最新のパフォーマンスの恩恵を受けながら、公開されている生成 AI モデルのトレーニングとファインチューニングを数分で開始できます。さらに、Nova Micro、Nova Lite、Nova Pro などの Amazon Nova 基盤モデル (FM) をビジネス固有のユースケースに合わせて、Nova の業界トップクラスの料金パフォーマンスと低レイテンシーを維持しながら、生成 AI アプリケーションの精度を向上させるためのレシピを使用して、カスタマイズできます。また、SageMaker HyperPod は、モデルのパフォーマンスの改善に役立つ、実験およびオブザーバビリティの組み込みツールも提供します。

SageMaker HyperPod を使用すると、トレーニングワークロードを効率的にスケールするのに役立つよう、モデルとトレーニングデータセットを AWS クラスターインスタンス間で自動的に分割できます。AWS ネットワークインフラストラクチャとクラスタートポロジ向けにトレーニングジョブを最適化するのに役立ちます。また、チェックポイントの保存頻度を最適化することでレシピを通じてモデルチェックポイントを合理化し、トレーニング中のオーバーヘッドが最小限に抑えられるようにします。
SageMaker HyperPod は、インフラストラクチャの障害を自動的に検出、診断、回復することでモデル開発のための回復力のある環境を提供します。これにより、中断することなく、数か月間にわたってモデル開発ワークロードを継続的に実行できます。

SageMaker HyperPod は、SageMaker JumpStart からのオープンウェイトモデルのデプロイと、Amazon S3 および Amazon FSx からのファインチューニングされたモデルのデプロイを加速する上で役立ちます。自動プロビジョニング、タスクガバナンスによるコンピューティングリソース管理、リアルタイムのパフォーマンスモニタリング、強化されたオブザーバビリティにより、モデルデプロイタスクを合理化できます。

SageMaker HyperPod でのタスクガバナンスのご紹介

コストを削減しながら、コンピューティングリソースの使用率を最大化し、完全な可視性を実現しましょう。