发布于: Apr 10, 2023

Amazon SageMaker Inference Recommender (IR) 可帮助客户选择最佳实例类型和配置(例如实例计数、容器参数和模型优化),以便在 SageMaker 上部署机器学习模型。今天,我们宣布与 Amazon CloudWatch 在日志和指标方面进行更深入的集成,提供 python SDK 支持以运行 IR 作业,使客户能够在所选的 VPC 子网内运行 IR 作业,支持通过新 API 在现有端点上运行负载测试,还提供了一些可用性改进以便您轻松开始使用 IR。

CloudWatch 集成在新日志组下提供了 IR 日志,用于识别 IR 执行中的任何错误。现在,除了吞吐量和延迟外,IR 还发布了关键指标,例如 P99 延迟下的并发用户数、CPU 和内存利用率。Python SDK 支持允许客户从 Jupyter notebook 触发 IR 作业以获取实例类型建议。我们还推出了新的 API,用于提供有关 IR 作业的所有执行步骤的详细见解,并提供针对现有端点进行模型负载测试的选项。为了提高可用性,我们将几个强制输入参数设为可选,客户无需注册模型或提供域名等输入就能运行 IR 作业。

有关已推出 SageMaker Inference 的 AWS 区域的更多信息,请参阅 AWS 区域表。 

要了解更多信息,请访问 Inference Recommender 文档。Amazon SageMaker Inference Recommender 仅向您收取已使用基础资源的费用。有关如何使用 SageMaker 部署模型的更多信息,请参阅文档