Amazon SageMaker AI 现在支持具有自动实例回退功能的容量感知推理

发布于: 2026年5月1日

Amazon SageMaker AI 推理端点现在支持在按优先级排序的实例类型列表上进行灵活预置。当您的首选实例类型容量不足时，SageMaker AI 会自动从列表中的下一个可用选项中进行预置，从而保持端点创建和自动扩展的顺畅运行，无需人工干预。这使在生产环境中部署人工智能/机器学习模型的团队能够灵活地应对容量限制，确保端点可靠地启动并按需扩展。

借助实例池支持，您可以定义一个按优先级排序的实例类型列表，SageMaker AI 会按照列表顺序自动预置容量。这适用于端点创建、更新和扩展。缩减时，SageMaker AI 会首先移除优先级最低的实例，在实例集收缩时保留您的首选基础设施。这适用于单一模型端点、基于 InferenceComponent 的端点和异步推理端点，包括缩减至零的端点，在扩展时，SageMaker AI 会从优先级最高的可用池中进行预置。

由于回退实例类型的 GPU 内存和计算能力不同，您可以在优先级列表中为每种实例类型指定不同的优化模型。您可以自己准备这些构件，也可以使用 SageMaker AI 推理建议，它会自动为每个实例类型生成特定于硬件的优化配置。此外，按实例类型划分的 CloudWatch 指标可让您了解单个端点内按硬件类型划分的延迟、吞吐量、GPU 利用率和实例计数。

此功能现已在以下区域推出：美国东部（弗吉尼亚州北部）、美国东部（俄亥俄州）、美国西部（俄勒冈州）、加拿大（中部）、南美洲（圣保罗）、欧洲地区（爱尔兰）、欧洲地区（伦敦）、欧洲地区（法兰克福））、欧洲地区（斯德哥尔摩）、欧洲地区（苏黎世）、亚太地区（东京）、亚太地区（首尔）、亚太地区（新加坡）、亚太地区（悉尼）、亚太地区（孟买）和亚太地区（雅加达）。要了解更多信息，请访问 Amazon SageMaker AI 文档。

Amazon SageMaker AI 现在支持具有自动实例回退功能的容量感知推理

了解

资源

开发人员

帮助