投稿日: Nov 29, 2023

本日、AWS は Amazon SageMaker HyperPod の一般提供を発表しました。このサービスでは、大規模な分散型トレーニングに特化したインフラストラクチャを使用して、基盤モデル (FM) のトレーニング時間を最大 40% 短縮することができます。 

多くの組織は、グラフィックスプロセッシングユニット (GPU) ベースおよび Trainium ベースのインスタンスを使用して低コストで自社の FM をトレーニングしたいと考えています。ただし、データ量、モデルのサイズ、FM のトレーニングに必要な時間といった要件によって、モデルのトレーニングが急激に複雑になっています。多くの場合、FM トレーニングを数百または数千のアクセラレーターに分散する必要があります。それから、何兆ものデータ計算を一度に数週間または数か月間並行して実行しますが、これには時間がかかり、機械学習の専門知識が必要です。アクセラレーターの数とトレーニング時間がタスク固有のモデルのトレーニングに比べて大幅に増加するため、アクセラレーターの 1 つが故障するといった、めったに起きない小さなエラーであっても複雑な問題を引き起こす可能性があります。 

SageMaker HyperPod を使用すると、FM のトレーニングのために ML インフラストラクチャを構築して最適化することに伴う、差別化につながらない面倒な作業を排除できます。SageMaker HyperPod は、SageMaker の分散型トレーニングライブラリで事前構成されています。これにより、トレーニングワークロードを数千のアクセラレーターに自動的に分散できるため、ワークロードを並行で処理してモデルパフォーマンスを向上させることができます。また、SageMaker HyperPod では、チェックポイントを定期的に保存し、FM トレーニングを中断することなく継続できるようにしています。トレーニング中にハードウェア障害が発生すると、SageMaker HyperPod によって自動的に障害が検出され、障害のあるインスタンスが修復または交換され、最後に保存したチェックポイントからトレーニングが再開されます。これにより、このプロセスを手動で管理する必要がなくなり、中断することなく分散された環境で数週間または数か月間トレーニングできるようになります。

SageMaker HyperPod は一般提供されており、この機能は米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (ソウル)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ストックホルム) の AWS リージョンでご利用いただけます。

詳細については、以下のリソースを参照してください。