Amazon SageMaker 推出新的推理功能以减少成本和延迟

发布于: Nov 29, 2023

我们很高兴地宣布在 Amazon SageMaker 上推出新功能，这些功能可帮助客户将模型部署成本平均减少 50%，推理延迟平均降低 20%。客户可以将多个模型部署到同一个实例，以更好地利用底层加速器。SageMaker 会主动监控正在处理推理请求的实例，并根据可用的实例智能地路由请求。

这些功能可用于 SageMaker 的实时推理，从而可以轻松部署 ML 模型。现在，您可以创建一个或多个 InferenceComponent，并将其部署到 SageMaker 端点。InferenceComponent 可抽象化您的 ML 模型，使您能够为每个模型分配 CPU、GPU 或 Neuron 加速器以及扩展策略。我们将智能地将每个模型放置在端点后面的实例上，以最大限度地提高利用率并节省成本。每个模型可以独立地纵向扩展和缩减到零。这可以腾出硬件资源，供其他模型使用实例上的加速器。每个模型还将发出自己的指标和日志，以帮助您监控和调试任何问题。我们添加了新的“最少未完成请求”路由算法，该算法可以更均匀地分配请求，从而减少端到端延迟。

这些新功能在以下区域全面推出：亚太地区（东京、首尔、孟买、新加坡、悉尼、雅加达）、加拿大（中部）、欧洲地区（法兰克福、斯德哥尔摩、爱尔兰、伦敦）、中东（阿联酋）、南美洲（圣保罗）、美国东部（弗吉尼亚州北部、俄亥俄州）和美国西部（俄勒冈州）。

要了解更多信息，请访问我们的文档页面和产品页面。

Amazon SageMaker 推出新的推理功能以减少成本和延迟

终止对 Internet Explorer 的支持