Amazon SageMaker HyperPod 向けタスクガバナンスの一般提供を開始

投稿日: 2024年12月4日

Amazon SageMaker HyperPod によって、トレーニングや推論など、生成 AI 開発のあらゆるタスクを一元的に管理できるようになりました。コンピューティングリソースの割り当てを完全に可視化して制御できるため、最も重要なタスクに優先順位を付け、コンピューティングリソースの使用率を最大化して、モデル開発コストを最大 40% 削減できます。

HyperPod のタスクガバナンスにより、管理者はさまざまなタスクの優先順位をより簡単に定義し、各チームが使用できるコンピューティングリソースの数に制限を設定できます。管理者はいつでも、視覚的なダッシュボードを使用して、実行中のタスクやコンピューティングリソースを待機中のタスクを監視および監査できます。データサイエンティストがタスクを作成すると、定義されたコンピューティングリソースの制限と優先順位に従って、HyperPod によってタスクが自動的に実行されます。例えば、優先度の高いモデルのトレーニングをできるだけ早く完了する必要があり、コンピューティングリソースがすべて使用されている場合、HyperPod はトレーニングに使用できるように優先度の低いタスクからリソースを解放します。HyperPod は優先度の低いタスクを一時停止し、チェックポイントを保存して、解放されたコンピューティングリソースを再割り当てします。プリエンプションされた優先度の低いタスクは、リソースが再び利用可能になると、最後に保存されたチェックポイントから再開されます。また、あるチームで、管理者が設定したリソース制限に未使用の部分がある場合、別のチームのタスクを進めるために、HyperPod によってそのアイドル状態のリソースが使用されます。さらに、HyperPod は Amazon SageMaker Studio と統合され、タスクガバナンスや HyperPod のその他の機能が Studio 環境で利用できるようになりました。データサイエンティストは HyperPod クラスターを Studio から直接シームレスに操作できるようになり、アクセラレーター対応の強力なクラスターで機械学習 (ML) ジョブを開発、送信、監視できるようになりました。

HyperPod のタスクガバナンスは、HyperPod が利用可能なすべての AWS リージョン (米国東部 (バージニア北部)、米国西部 (北カリフォルニア)、米国西部 (オレゴン)、アジアパシフィック (ムンバイ)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (ストックホルム)、南米 (サンパウロ)) でご利用いただけます。

詳細については、SageMaker HyperPod ウェブページAWS ニュースブログSageMaker AI ドキュメントをご覧ください。