投稿日: Sep 30, 2022
Amazon SageMaker のモデルトレーニングで、SageMaker のトレーニングマネージド型ウォームプールのサポートを開始しました。機械学習 (ML) モデルトレーニングのハードウェアインスタンスを、ジョブ完了後の指定された期間、ウォーム状態に保つ選択ができるようになりました。この機能を利用すると、同じウォーム状態のインスタンスでモデルトレーニングの反復実験や連続したジョブを大規模に実行して、ジョブの起動レイテンシを最大 8 分の 1 に短縮できます。
Amazon SageMaker Model Training はフルマネージド型の機能で、すべてのジョブを起動し、モデルをトレーニングし、ジョブの完了後にインスタンスを停止させます。料金はジョブの実行時間に対してのみ発生します。このフルマネージド型の機能により、ユーザーはモデルのトレーニング中にインフラストラクチャ管理を気にせず、ML アルゴリズムに集中できます。しかし、ハードウェアインスタンスはトレーニングジョブごとにプロビジョニングされるため、この動作によって反復的なトレーニングワークロードで起動の待ち時間が発生します。モデルトレーニングのプロセスにはかなりの反復実験が必要であることを考えると、すべての単一のジョブでこの起動レイテンシが生じると、ユーザーにとって追加のオーバーヘッドになります。さらに、大量のモデルトレーニングを大規模に行おうとするユーザーは、連続するトレーニングジョブに同じインスタンス構成を使用することが多く、ジョブごとのこうした起動レイテンシを負担に感じています。
SageMaker のトレーニングマネージド型ウォームプールを使用すると、指定された期間、各ジョブの後にモデルトレーニングのハードウェアインスタンスをウォーム状態に保てます。これにより、すでに稼働しているインスタンスを使ってトレーニングを開始して、反復実験を行ったり、大量のモデルを連続してトレーニングしたりできます。SageMaker のトレーニングマネージド型ウォームプールを使用すると、モデルのトレーニングジョブの起動レイテンシを最大 8 分の 1 に短縮できます。トレーニング API でキープアライブ期間を指定することによって、SageMaker のトレーニングマネージド型ウォームプールを有効にできます。ウォームプールの使用を選択した場合、キープアライブ期間中のインスタンスと EBS ボリュームに対して請求が行われます。
SageMaker のトレーニングマネージド型ウォームプールは、Amazon SageMaker のモデルトレーニングが利用できるすべてのパブリック AWS リージョンで利用可能です。利用を開始するには、Amazon SageMaker 開発者ガイドの SageMaker のトレーニングマネージド型ウォームプールを使用したトレーニングをご覧ください。