投稿日: Aug 20, 2021

私たちは、受信リクエストのキューを行い、それらを非同期で処理するAmazon SageMaker での新しい推論オプションである Amazon SageMaker 非同期推論を導入しています。このオプションは、大きいペイロードサイズ (最大 1GB)、および/または長い処理時間 (最大 15 分) の、リクエストが到着すると同時に処理する必要がある推論に最適です。非同期推論を用いると、処理のリクエストがない場合、インスタンスカウントをゼロにオートスケーリングすることによりコストを削減できるので、エンドポイントがリクエストを処理している時間についてのみ支払うようになります。

非同期推論の導入により、Amazon SageMaker は、新しいデータで推論を生成するためのトレーニングされた機械学習を展開する 3 つのオプションを提供しています。リアルタイムの推論は、ペイロードサイズが最大 6MB で、ミリ秒や秒のオーダーの低レイテンシー要件で処理される必要があるワークロードに適しています。バッチ変換は、事前に入手可能な大きなデータのバッチに対するオフライン予測に最適です。新しい非同期推論オプションは、リクエストサイズが大きく (1GB)、推論処理時間が分のオーダー (最大 15 分) のワークロードに最適です。非同期推論のワークロードの例には、同じ日に異なる間隔でモバイルデバイスから生成した高解像度の画像での予測の実行、およびリクエストを受け取ってから数分以内での応答の提供などがあります。2、3 分のコールドスタートペナルティを許容できるユースケースでは、新しいリクエストが到着したときに極端なリクエストとスケールバックアップがない場合、オプションでエンドポイントのインスタンスカウントをゼロにスケールダウンできるので、エンドポイントがアクティブにリクエストを処理している時間についてのみ支払うようになります。

非同期推論のエンドポイントの作成は、リアルタイムのエンドポイントの作成と似ています。既存の Amazon SageMaker モデルを使用できるので、エンドポイントの設定を作成する際は、設定パラメータに特有の追加の非同期推論を指定するだけで十分です。エンドポイントを呼び出すには、リクエストペイロードを Amazon S3 に配置して、呼び出しリクエストの一部としてペイロードへのポインターを提供する必要があります。呼び出し時に、Amazon SageMaker は、処理のためにリクエストをエンキューし、応答として出力場所を返します。処理時に、Amazon SageMaker は、推論の応答を以前返された Amazon S3 の場所に配置します。成功またはエラーの通知を Simple Notification Service (SNS) 経由で受け取るようオプションで選ぶことができます。

非同期推論のエンドポイントを作成、呼び出し、およびモニタリングする方法の詳細な説明については、開始に役立つサンプルノートブックも付いているドキュメントをお読みください。料金情報については、Amazon SageMaker の料金ページをご覧ください。Amazon SageMaker 非同期推論は、アジアパシフィック (大坂)、欧州 (ミラノ)、およびアフリカ (ケープタウン) 以外の Amazon SageMaker が利用可能なすべての商用 AWS リージョンで一般に入手できます。