Amazon SageMaker 針對生成式 AI 模型推出更快速的自動擴展功能

張貼日期: 2024年7月25日

我們很高興宣布在 Amazon SageMaker 推論提供了全新功能,可幫助客戶減少生成式 AI 模型自動擴展所需的時間。客戶現在可以使用低於一分鐘的指標,並大幅降低 AI 模型的整體擴展延遲。使用這項增強功能後,客戶可以隨需求變化而提高生成式 AI 應用程序的回應能力。

透過這項功能,客戶可以獲得兩項全新的高解析度 CloudWatch 指標:ConcurrentRequestsPerModel 和 ConcurrentRequestsPerModelCopy;這兩項 CloudWatch 指標可提高自動擴展所需的速度。這些指標每隔 10 秒發出,並且透過追蹤由模型處理的實際並行或執行中的推論請求數目,更準確呈現端點上的負載情形。客戶可以使用這些高解析度指標來建立自動擴展原則,以擴展部署在 SageMaker 端點上的模型。當達到這些自動擴展原則中定義的臨界值時,Amazon SageMaker 將在一分鐘內開始新增新的執行個體或模型副本。這可讓客戶針對 SageMaker 上的推論工作負載最佳化效能和成本效益。

您可在所有提供 Amazon SageMaker 推論之 AWS 區域的加速器執行個體系列 (g4dn、g5、g6、p2、p3、p4d、p4de、p5、inf1、inf2、trn1n、trn1) 存取這項新功能,中國和 AWS GovCloud (美國) 區域除外。若要進一步了解,請參閱 AWS ML 部落格並瀏覽我們的相關文件