Amazon SageMaker AI 现在支持具有自动实例回退功能的容量感知推理

发布于: 2026年5月1日

Amazon SageMaker AI 推理端点现在支持在按优先级排序的实例类型列表上进行灵活预置。当您的首选实例类型容量不足时,SageMaker AI 会自动从列表中的下一个可用选项中进行预置,从而保持端点创建和自动扩展的顺畅运行,无需人工干预。这使在生产环境中部署人工智能/机器学习模型的团队能够灵活地应对容量限制,确保端点可靠地启动并按需扩展。

借助实例池支持,您可以定义一个按优先级排序的实例类型列表,SageMaker AI 会按照列表顺序自动预置容量。这适用于端点创建、更新和扩展。缩减时,SageMaker AI 会首先移除优先级最低的实例,在实例集收缩时保留您的首选基础设施。这适用于单一模型端点、基于 InferenceComponent 的端点和异步推理端点,包括缩减至零的端点,在扩展时,SageMaker AI 会从优先级最高的可用池中进行预置。

由于回退实例类型的 GPU 内存和计算能力不同,您可以在优先级列表中为每种实例类型指定不同的优化模型。您可以自己准备这些构件,也可以使用 SageMaker AI 推理建议,它会自动为每个实例类型生成特定于硬件的优化配置。此外,按实例类型划分的 CloudWatch 指标可让您了解单个端点内按硬件类型划分的延迟、吞吐量、GPU 利用率和实例计数。


此功能现已在以下区域推出:美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(俄勒冈州)、加拿大(中部)、南美洲(圣保罗)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(法兰克福))、欧洲地区(斯德哥尔摩)、欧洲地区(苏黎世)、亚太地区(东京)、亚太地区(首尔)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(孟买)和亚太地区(雅加达)。要了解更多信息,请访问 Amazon SageMaker AI 文档