Amazon SageMaker HyperPod

基盤モデルのトレーニング時間を最大 40% 短縮し、1,000 個を超える AI アクセラレーター全体で効率的にスケール

SageMaker HyperPod とは?

Amazon SageMaker HyperPod は、機械学習 (ML) インフラストラクチャの構築と最適化に伴う差別化につながらない重労働を排除します。1,000 を超える AI アクセラレーターにトレーニングワークロードを自動的に分割する、SageMaker の分散トレーニングライブラリが事前設定されているため、ワークロードを並列処理して、モデルのパフォーマンスを改善できます。SageMaker HyperPod は、チェックポイントを定期的に保存することで、FM トレーニングが中断されないようにします。ハードウェア障害を発生時に自動検知し、障害が発生したインスタンスを修復または交換して、最後に保存されたチェックポイントからトレーニングを再開するため、このプロセスを手動で管理する必要がなくなります。高い回復力を備えた環境では、分散された環境内で、数週間または数か月間にわたって中断なく、モデルのトレーニングを実行できるため、トレーニング時間を最大 40% 短縮できます。SageMaker HyperPod は高度にカスタマイズ可能であるため、ユーザーは FM ワークロードを効率的に実行およびスケールしたり、大規模なトレーニングから推論まで、さまざまなワークロード間でコンピューティングキャパシティを簡単に共有したりできます。

SageMaker ハイパーポッドのメリット

Amazon SageMaker HyperPod は、Amazon SageMaker の分散トレーニングライブラリで事前設定されているため、モデルとトレーニングデータセットを AWS クラスターインスタンス間で自動的に分割して、トレーニングワークロードを効率的にスケーリングできます。
SageMaker HyperPod は、Slurm や Amazon Elastic Kubernetes Service (EKS) などの一般的なクラスター管理およびジョブスケジューリングシステムをサポートしています。優れたデベロッパーエクスペリエンス、コンテナ化されたアプリケーションの管理機能がもたらされ、動的なクラスタースケーリング、FM トレーニングと推論のワークロードをスケーリングする際のクラウドネイティブ統合が可能になります。さらに、トレーニングと推論の間でリソースをシームレスに共有して、リソースの使用率をさらに最適化できます。
SageMaker HyperPod は、障害を自動的に検出、診断、回復することで、障害の回復力を高めるトレーニング環境を実現し、中断することなく FM を数か月間継続してトレーニングできるようにします。