投稿日: Sep 1, 2023

SageMaker リアルタイム推論の使用時に、継続的に推論応答をクライアントにストリーミングすることにより、チャットボット、仮想アシスタント、音楽生成ツールなどさまざまな生成系 AI アプリケーションのインタラクティブな体験を実現できるようになりました。

チャットボットなどのインタラクティブな生成系 AI アプリケーションを使用する際に、チャットボットの応答中に応答を単語単位で読むことができるので、完全な応答を待つ必要はありません。この種のアプリケーションで、インタラクティブに感じられる体験を実現するためには、最初の推論応答までの時間を最小限に抑えることが特に重要です。以前は、SageMaker エンドポイントでは推論応答がすべて完了するまで待ってからクライアントに応答していました。応答ストリーミングを使用すると、推論応答がすべて完了するまでの間、推論の一部が継続的に返されます。 

この機能は、SageMaker が提供されているすべての商用リージョンで利用できます。

応答ストリーミングの使用法の詳細と例については、API リファレンスストリーミング応答の取得、およびコンテナの応答方法に関するドキュメントと、こちらのブログをご覧ください。