SageMaker HyperPod 現在支援受管分層 KV 快取和智慧路由

張貼日期: 2025年11月26日

Amazon SageMaker HyperPod 現在支援大型語言模型 (LLM) 推論的受管分層 KV 快取和智慧路由,能夠讓客戶針對長上下文提示和多輪交談最佳化推論效能。在處理冗長文件或維護對話上下文時,部署生產 LLM 應用程式的客戶需要快速的回應速度,但是傳統的推論方法需要在每個新字符產生作業中重新計算所有先前字符的注意機制,這會產生計算開支並增加成本。受管分層 KV 快取會透過智慧地快取和重複使用已計算的值來解決這個挑戰,而智慧型路由則會將請求導向至最佳的執行個體。

與基準組態相比,這些功能可降低高達 40% 的延遲、提高 25% 的輸送量,並節省 25% 的成本。受管分層 KV 快取功能使用雙層式架構,該架構會結合本機 CPU 記憶體 (L1) 與解耦式叢集範圍儲存空間 (L2)。AWS 原生的解耦式分層儲存空間為 AWS 建議的後端,能夠提供可擴展的 TB 規模容量,以及從 CPU 記憶體到本機 SSD 的自動分層功能,從而達到最佳記憶體和儲存空間使用率。我們還提供 Redis 作為替代的 L2 快取選項。該架構能夠在不同請求中有效地重複使用先前計算的鍵值對。新推出的智慧路由功能會透過下列三種可設定的策略來最大限度地提高快取使用率:用於常見提示模式的前綴感知路由、透過即時快取追蹤來最大化快取效率的 KV 感知路由,以及用於無狀態工作負載的輪詢。這些功能會順暢地搭配運作。智慧路由會將請求導向至具有相關快取資料的執行個體,從而縮短在文件分析中產生首個字符的時間,並在多輪交談中維持自然的對話流程。內建可觀測性與 Amazon Managed Grafana 的整合,可提供用於監控效能的指標。在 EKS 協調的叢集上透過 HyperPod 推論運算子部署模型時,您可以透過 InferenceEndpointConfig 或 SageMaker JumpStart 啟用這些功能。

這些功能適用於提供 SageMaker HyperPod 的所有區域。若要進一步了解,請參閱使用者指南