Amazon SageMaker 推出新功能,以加速生成式 AI 推論的擴展
我們很高興宣布 SageMaker Inference 中的兩項新功能,這些功能顯著強化生成式 AI 模型的部署和擴展:容器快取和快速模型載入器。這些創新解決了高效擴展大型語言模型 (LLM) 方面的重要挑戰,從而加快對流量高峰的回應時間,並實現更具成本效益的擴展。透過縮短模型載入時間和加速自動擴展,這些功能可讓客戶在需求波動時改善生成式 AI 應用程式的回應能力,尤其是有利於具有動態流量模式的服務。
容器快取透過預先快取容器映像,大幅縮短擴展生成式 AI 模型以進行推論所需的時間。這樣在擴展時就無需下載這些模型,從而大幅縮短生成式 AI 模型端點的擴展時間。快速模型載入器將模型重量直接從 Amazon S3 串流到加速器,與傳統方法相比,載入模型的速度更快。這些功能讓客戶能夠建立回應迅速的自動擴展政策,達到設定的閾值時,SageMaker 可以新增新的執行個體或模型副本,從而在流量高峰期間維持最佳效能,同時有效管理成本。
這些新功能都可在提供 Amazon SageMaker 推論的所有 AWS 區域中使用。若要深入瞭解,請參閱我們的文件以取得詳細的實作指引。