投稿日: May 10, 2023

本日、Amazon SageMaker Serverless Inference で、プロビジョニングされた同時実行機能の一般提供が開始されました。プロビジョニングされた同時実行を使用すると、予測可能なパフォーマンスと高いスケーラビリティを備えたモデルをサーバーレスエンドポイントにデプロイできます。プロビジョニングされた同時実行をサーバーレスエンドポイントに追加すると、SageMaker はエンドポイントを、事前に定義された量の同時実行リクエストに即応できる状態に保ちます。プロビジョニングされた同時実行は、トラフィックが予測可能でスループットが低いお客様に最適です。

エンドポイントがしばらくトラフィックを受信せず、その後エンドポイントが突然新しいリクエストを受信する場合があります。この場合、オンデマンドのサーバーレスエンドポイントでは、エンドポイントがコンピューティングリソースを起動してリクエストを処理するまでに時間がかかることがあります。これはコールドスタートと呼ばれます。コールドスタートは、同時リクエストがその時点における同時リクエストの使用量を超える場合にも発生することがあります。レイテンシープロファイルの変動性を低減するために、オプションでサーバーレスエンドポイント向けに、プロビジョニングされた同時実行を有効にできます。プロビジョニングされた同時実行を使用すると、サーバーレスエンドポイントは常に準備が整った状態となります。そして、プロビジョニングされた同時実行の設定数を上限として、大量のトラフィックを瞬時に、コールドスタートなしで処理できます。

サーバーレスエンドポイントでプロビジョニングされた同時実行を有効にするには、AWS コンソール、AWS SDK、または AWS コマンドラインインターフェイス (AWS CLI) を使用します。SageMaker Serverless Inference のプロビジョニングされた同時実行は、SageMaker Serverless Inference が一般提供されている AWS リージョンすべてで一般提供中です。

使用を開始するには以下を参照してください。