Amazon Web Services ブログ
新しい Amazon SageMaker HyperPod の柔軟なトレーニングプランで、トレーニングのタイムラインと予算の要件を満たす
12 月 4 日、データサイエンティストがタイムラインと予算内で大規模な基盤モデル (FM) をトレーニングし、コンピューティングの可用性に基づいてトレーニングプロセスを管理する数週間の労力を節約するのに役立つ、Amazon SageMaker HyperPod の柔軟なトレーニングプランの一般提供の開始を発表しました。
AWS re:Invent 2023 では、SageMaker HyperPod をご紹介しました。これを使用することで、FM のトレーニング時間を最大 40% 短縮できるほか、事前設定された分散トレーニングライブラリと組み込みの回復力を使用して、数千のコンピューティングリソースを並行してスケールできます。ほとんどの生成 AI モデル開発タスクでは、高速コンピューティングリソースが並列で必要です。お客様は、タイムラインと予算の制約内でトレーニングを完了するために、コンピューティングリソースに適時にアクセスすることに苦労しています。
12 月 4 日の発表により、トレーニングに必要な高速コンピューティングリソースを見つけ、最適なトレーニングプランを作成し、コンピューティングリソースの可用性に応じて、さまざまなキャパシティブロックにまたがってトレーニングワークロードを実行できます。数ステップで、トレーニングの完了日、予算、コンピューティングリソースの要件を特定し、最適なトレーニングプランを作成して、手動による介入なしで、フルマネージドトレーニングジョブを実行できます。
SageMaker HyperPod のトレーニングプランが実際に機能している様子
使用を開始するには、Amazon SageMaker AI コンソールに移動し、左側のナビゲーションペインで [トレーニングプラン] を選択して、[トレーニングプランを作成] を選択します。
例えば、SageMaker HyperPod クラスターのために希望するトレーニングの日時 (10 日間)、インスタンスタイプと数 (16 個の ml.p5.48xlarge
) を選択し、[トレーニングプランを検索] を選択します。
SageMaker HyperPod は、2 つの 5 日間のセグメントに分割されたトレーニングプランを提案します。これには、プランの前払い料金の合計が含まれます。
このトレーニングプランを受け入れる場合は、次のステップでトレーニングの詳細を追加し、プランの [作成] を選択します。
トレーニングプランを作成すると、トレーニングプランのリストが表示されます。トレーニングプランを作成したら、12 時間以内にプランについての前払い料金を支払う必要があります。1 つのプランは [アクティブ] 状態で、既に開始されており、すべてのインスタンスが使用されています。2 つ目のプランは後で開始するように [スケジュール済み] になっていますが、プランの開始時に自動的に開始されるジョブを既に送信できます。
[アクティブ] ステータスのコンピューティングリソースは SageMaker HyperPod で使用可能であり、使用可能な状態で一時停止が発生してもその後に自動的に再開され、プランの終了時に終了します。現在実行中の最初のセグメントがあり、現在のセグメントの後に実行するためにキューに入れられた別のセグメントがあります。
これは、SageMaker AI がインスタンスの中断を処理し、手動介入なしでトレーニングを続行する SageMaker AI のマネージドスポットトレーニングに似ています。詳細については、「Amazon SageMaker AI デベロッパーガイド」の「SageMaker HyperPod training plans」にアクセスしてください。
今すぐご利用いただけます
Amazon SageMaker HyperPod トレーニングプランは、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン) の AWS リージョンでご利用いただけるようになりました。ml.p4d.48xlarge
、ml.p5.48xlarge
、ml.p5e.48xlarge
, ml.p5en.48xlarge
、ml.trn2.48xlarge
インスタンスがサポートされています。Trn2 および P5en インスタンスは、米国東部 (オハイオ) リージョンでのみご利用いただけます。詳細については、SageMaker HyperPod の製品ページと SageMaker AI の料金ページにアクセスしてください。
Amazon SageMaker AI コンソールで HyperPod トレーニングプランをお試しいただき、AWS re:Post for SageMaker AI に、または通常の AWS サポートの連絡先を通じて、フィードバックをぜひお寄せください。
– Channy
原文はこちらです。