Amazon SageMaker 推出新功能，以加速生成式 AI 推論的擴展

張貼日期: 2024年12月6日

我們很高興宣布 SageMaker Inference 中的兩項新功能，這些功能顯著強化生成式 AI 模型的部署和擴展：容器快取和快速模型載入器。這些創新解決了高效擴展大型語言模型 (LLM) 方面的重要挑戰，從而加快對流量高峰的回應時間，並實現更具成本效益的擴展。透過縮短模型載入時間和加速自動擴展，這些功能可讓客戶在需求波動時改善生成式 AI 應用程式的回應能力，尤其是有利於具有動態流量模式的服務。

容器快取透過預先快取容器映像，大幅縮短擴展生成式 AI 模型以進行推論所需的時間。這樣在擴展時就無需下載這些模型，從而大幅縮短生成式 AI 模型端點的擴展時間。快速模型載入器將模型重量直接從 Amazon S3 串流到加速器，與傳統方法相比，載入模型的速度更快。這些功能讓客戶能夠建立回應迅速的自動擴展政策，達到設定的閾值時，SageMaker 可以新增新的執行個體或模型副本，從而在流量高峰期間維持最佳效能，同時有效管理成本。

這些新功能都可在提供 Amazon SageMaker 推論的所有 AWS 區域中使用。若要深入瞭解，請參閱我們的文件以取得詳細的實作指引。

選取您的 Cookie 偏好設定

Amazon SageMaker 推出新功能，以加速生成式 AI 推論的擴展

結束對 Internet Explorer 的支援