投稿日: Mar 16, 2021
Amazon SageMaker は、低レイテンシーの推論のためにリアルタイムエンドポイントに複数のコンテナをデプロイし、リクエストごとの個別の呼び出しのサポートを開始しました。この新機能により、単一のエンドポイントで最大 5 つの異なる機械学習 (ML) モデルとフレームワークを実行し、最大 80% のコストを節約できます。このオプションは、同様のリソースニーズを持つ複数の ML モデルがあり、エンドポイントインスタンスの全容量を利用するのに十分なトラフィックが個々のモデルにない場合に理想的です。頻繁にまたは異なる時間に呼び出される ML モデルのセットがある場合、または開発/テストエンドポイントがある場合がその一例です。
この機能を使用するには、エンドポイントにデプロイする必要があるトレーニング済みモデルとともにコンテナのリストを指定し、モデルが個別にアクセスされるようにすることを SageMaker に指示する「直接」推論実行モードを選択する必要があります。 特定のモデルに対して推論を行うには、エンドポイントを呼び出し、リクエストヘッダーでコンテナの名前を指定します。条件キーを指定することで、直接呼び出しモードで各コンテナへの推論リクエストを保護できます。また、Amazon CloudWatch でコンテナごとのメトリクスを取得できます。
推論を行うときにリクエストを事前/事後処理する場合、または ML モデルのセットを順次実行する場合は、推論ごとにマルチコンテナエンドポイントでコンテナを順番に実行することもできます (つまり、推論パイプライン)。この機能は、マルチコンテナエンドポイントのデフォルトの動作として既にサポートされています。また、推論実行モードを「シリアル」に設定することで有効にできます。