宣布 Amazon SageMaker 推論的黏性會話路由
今天,我們宣布在 Amazon SageMaker Inference 上提供黏性會話路由,可幫助客戶利用先前處理過的資訊來改善生成式 AI 應用程式的效能和使用者體驗。Amazon SageMaker 能以更輕鬆的方式部署 ML 模型 (包括基礎模型 (FM) 在內),針對任何使用案例以最優惠的價格效能比提出推論請求。
透過啟用黏性黏性會話,相同黏性會話的所有請求都將路由到相同的執行個體,使 ML 應用程式可以重複使用先前處理的資訊,以減少延遲並改善使用者體驗。當客戶希望使用大量資料承載或需要無縫互動體驗時,這特別有價值。透過利用先前的推論請求,客戶現在可以利用此功能,在 SageMaker 上建構創新的狀態感知 AI 應用程式。為此,客戶必須使用其第一個請求建立執行個體 ID,然後使用該執行個體 ID 來指出 SageMaker 應將所有後續請求路由到相同的執行個體。完成後也可以刪除會話,以釋出資源供新會話使用。
此功能已在提供 SageMaker 的所有區域中推出。您可以在此處深入了解在 SageMaker 上部署模型,並在我們的文件中了解此功能。