Amazon SageMaker 推出新功能以加速生成式人工智能推理的扩展

发布于: 2024年12月6日

我们很高兴地宣布 SageMaker Inference 增加了两项新功能:容器缓存和快速模型加载器,它们能够显著增强生成式人工智能模型的部署和扩展能力。这些创新功能解决了有效扩展大型语言模型(LLM)方面的重要挑战,实现了对流量高峰更快速的响应,以及更具成本效益的扩展。通过缩短模型加载时间并加速自动扩展,这些功能使客户能够在需求波动时提高其生成式人工智能应用程序的响应能力,对具有动态流量模式的服务尤其有利。

容器缓存功能可以预缓存容器镜像,显著减少了扩展生成式人工智能模型以进行推理所需的时间。这样就无需在扩展时下载镜像,从而显著缩短了生成式人工智能模型端点的扩展时间。快速模型加载器可以将模型权重直接从 Amazon S3 传输到加速器,与传统方法相比,加载模型的速度要快得多。这些功能使客户能够创建更加灵活的自动扩展策略,使 SageMaker 能够在达到定义的阈值时快速添加新实例或模型副本,从而在流量高峰期间保持最佳性能,同时有效控制成本。

这些新功能在所有提供 Amazon SageMaker Inference 的 AWS 区域均可使用。要了解更多信息,请参阅我们的文档以获取详细的实施指南。