Amazon SageMaker Inference のスティッキーセッションルーティングについてのお知らせ

投稿日: 2024年9月12日

本日、Amazon SageMaker Inference でスティッキーセッションルーティングが利用可能になったことを発表します。これにより、お客様は以前に処理された情報を活用して、生成 AI アプリケーションのパフォーマンスとユーザーエクスペリエンスを向上させることができます。Amazon SageMaker を利用すると、基盤モデル (FM) を含む ML モデルをより簡単にデプロイして、どのようなユースケースでも最高のコストパフォーマンスで推論リクエストを実行できます。

スティッキーセッションを有効にすると、同じセッションのすべてのリクエストが同じインスタンスにルーティングされ、ML アプリケーションは以前に処理された情報を再利用してレイテンシーを短縮し、ユーザーエクスペリエンスを向上させることができます。これは、お客様が大量のデータペイロードを使用したい場合、シームレスなインタラクティブエクスペリエンスを必要とする場合に特に役立ちます。以前の推論リクエストを活用することで、お客様はこの機能を活用して、SageMaker 上で革新的な状態認識型 AI アプリケーションを構築できるようになりました。そのためには、お客様は最初のリクエストでセッション ID を作成し、そのセッション ID を使用して SageMaker が以降のすべてのリクエストを同じインスタンスにルーティングするように指定する必要があります。終了後にセッションを削除して、新しいセッションのためにリソースを解放することもできます。

この機能は、SageMaker が提供されているすべてのリージョンで利用できます。SageMaker へのモデルのデプロイについて詳しくは、こちらをご覧ください。この機能の詳細については、ドキュメントをご覧ください。