Amazon SageMaker AI でインスタンスの自動フォールバックによる容量を考慮した推論のサポートを開始

投稿日: 2026年5月1日

Amazon SageMaker AI の推論エンドポイントで、優先順位付けされたインスタンスタイプのリストに基づく柔軟なプロビジョニングのサポートが開始されました。優先順位の高いインスタンスタイプで容量が不足している場合、SageMaker AI によりリスト内の次の使用可能なオプションから自動的にプロビジョニングが行われます。これにより、手動での介入を行わずにエンドポイントの作成と自動スケーリングをスムーズに続行できます。これにより、AI/ML モデルを本番環境にデプロイするチームは、容量の制約に適切に対応できる耐障害性を得ることができるので、確実にエンドポイントを起動させ、オンデマンドでスケールできるようになります。

インスタンスプールのサポートにより、優先順位を付けたインスタンスタイプのリストを定義すれば、SageMaker AI によりリストの順番どおりに容量が自動的にプロビジョニングされます。これは、エンドポイントの作成、更新、スケーリングのすべてに適用されます。スケールダウン時には、SageMaker AI は優先度の低いインスタンスから最初に削除するので、フリートが縮小しても優先度の高いインフラストラクチャが保持されます。これは、シングルモデルエンドポイント、InferenceComponent ベースのエンドポイント、非同期推論エンドポイントで利用可能です。これにはゼロまでスケールするエンドポイントも含まれており、再スケールアップ時に SageMaker AI により最も優先度の高い利用可能なプールからプロビジョニングが行われます。

フォールバックインスタンスのタイプによって GPU メモリやコンピューティング能力が異なるため、優先順位付きリスト内のインスタンスタイプごとに異なる最適化モデルを指定できます。これらのアーティファクトは自分で準備することも、SageMaker AI 推論レコメンデーションを使用してインスタンスタイプごとにハードウェア固有の最適化された構成を自動的に生成することもできます。さらに、インスタンスタイプごとの CloudWatch メトリクスにより、単一のエンドポイント内のハードウェアタイプ別にレイテンシー、スループット、GPU 使用率、インスタンス数を可視化できます。


この機能は現在、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、カナダ (中部)、南米 (サンパウロ)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (フランクフルト)、欧州 (ストックホルム)、欧州 (チューリッヒ)、アジアパシフィック (東京)、アジアパシフィック (ソウル)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (ムンバイ)、アジアパシフィック (ジャカルタ) でご利用いただけます。詳細については、Amazon SageMaker AI のドキュメントを参照してください。