发布于: Nov 29, 2023

我们很高兴地宣布在 Amazon SageMaker 上推出新功能,这些功能可帮助客户将模型部署成本平均减少 50%,推理延迟平均降低 20%。客户可以将多个模型部署到同一个实例,以更好地利用底层加速器。SageMaker 会主动监控正在处理推理请求的实例,并根据可用的实例智能地路由请求。

这些功能可用于 SageMaker 的实时推理,从而可以轻松部署 ML 模型。现在,您可以创建一个或多个 InferenceComponent,并将其部署到 SageMaker 端点。InferenceComponent 可抽象化您的 ML 模型,使您能够为每个模型分配 CPU、GPU 或 Neuron 加速器以及扩展策略。我们将智能地将每个模型放置在端点后面的实例上,以最大限度地提高利用率并节省成本。每个模型可以独立地纵向扩展和缩减到零。这可以腾出硬件资源,供其他模型使用实例上的加速器。每个模型还将发出自己的指标和日志,以帮助您监控和调试任何问题。我们添加了新的“最少未完成请求”路由算法,该算法可以更均匀地分配请求,从而减少端到端延迟。 

这些新功能在以下区域全面推出:亚太地区(东京、首尔、孟买、新加坡、悉尼、雅加达)、加拿大(中部)、欧洲地区(法兰克福、斯德哥尔摩、爱尔兰、伦敦)、中东(阿联酋)、南美洲(圣保罗)、美国东部(弗吉尼亚州北部、俄亥俄州)和美国西部(俄勒冈州)。

要了解更多信息,请访问我们的文档页面产品页面