Amazon SageMaker AI 推出优化的生成式 AI 推理建议
发布于:
2026年4月21日
Amazon SageMaker AI 现在支持推理建议,这是一项新功能,无需手动优化和基准测试,即可提供最佳推理性能。通过提供具有性能指标的经过验证的最佳部署配置,SageMaker AI 加快了投产之路,让模型开发人员可以专注于构建准确的模型,而无需耗费精力管理基础设施。
客户自带生成式 AI 模型,定义预期的流量模式,并指定性能目标(针对成本进行优化、最大程度地降低延迟或提高吞吐量)。SageMaker AI 随后会分析模型架构,并在多个实例类型中应用符合该目标的优化措施,使用 NVIDIA AIPerf 在真实 GPU 基础设施上对每种配置进行基准测试。通过评估多种实例类型,客户可以为其工作负载选择性价比最高的选项。最终将获得可直接部署的配置方案,其中附带多项经过验证的指标,包含首个令牌生成时间、令牌间延迟、请求延迟百分比、吞吐量以及成本预测。
该功能现已在七个 AWS 区域推出:美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、美国东部(俄亥俄州)、亚太地区(东京)、欧洲地区(爱尔兰)、亚太地区(新加坡)和欧洲地区(法兰克福)。要了解更多信息,请访问 SageMaker AI 文档。