Amazon SageMaker 已为生成式 AI 模型推出速度更快的自动扩展功能
我们很高兴地宣布推出 Amazon SageMaker Inference 的一项新功能,这项功能可帮助客户缩短生成式 AI 模型自动扩展所需的时间。他们现在可以使用亚分钟级指标,并显著减少 AI 模型的总体扩展延迟。使用这项增强功能,客户可以在需求波动时提高生成式 AI 应用程序的响应能力。
借助此功能,客户将获得两个新的高精度 CloudWatch 指标(ConcurrentRequestsPerModel 和 ConcurrentRequestsPerModelCopy),从而实现更快的自动扩展。这些指标以 10 秒的间隔发出,通过跟踪模型正在处理的实际并发量或正在进行的推理请求数量,可以更准确地表示端点上的负载。客户可以使用这些高精度指标创建自动扩展策略,以扩展在 SageMaker 端点上部署的模型。当达到这些自动扩展策略中定义的阈值时,Amazon SageMaker 将在不到一分钟的时间内开始添加新实例或模型副本。这样一来,客户就能够在 SageMaker 上优化其推理工作负载的性能和成本效益。
在已推出 Amazon SageMaker Inference 的所有 AWS 区域(中国和 AWS GovCloud(美国)区域除外)的加速器实例系列(g4dn、g5、g6、p2、p3、p4d、p4de、p5、inf1、inf2、trn1n、trn1)上,都可以使用这项新功能。要了解更多信息,请参阅 AWS ML 博客,并参阅我们的文档。