Amazon SageMaker Inference 现在支持适用于 PyTorch 的多模型终端节点

发布于: Sep 6, 2023

SageMaker 多模型终端节点 (MME) 是一项完全托管的功能，使客户能够在单个 SageMaker 端点上部署 1000 个模型并降低成本。直到今天，使用 TorchServe 部署的 PyTorch 模型仍不支持 MME。现在，客户可以使用 MME 来通过 TorchServe 部署 1000 个 PyTorch 模型，从而降低推理成本。

越来越多的客户使用 PyTorch 构建 ML 模型以实现业务成果。要部署这些 ML 模型，客户需要在 CPU/GPU 实例上使用 TorchServe 来实现所需的延迟和吞吐量目标。但是，如果客户部署 10 个以上的模型，则成本可能会增加。借助 MME 对 TorchServe 的支持，客户可以在单个 SageMaker 端点上部署 1000 个基于 PyTorch 的模型。在后台，MME 将在单个实例上运行多个模型，并根据传入流量在多个实例上动态加载/卸载模型。有了此功能，客户可以节省成本，因为他们可以在 1000 个模型之间共享一个端点后面的实例，并且只需为使用的实例数付费。

此功能支持 PyTorch 模型，这些模型使用 SageMaker TorchServe Inference Container 以及所有经过机器学习优化的 CPU 实例和 ml.g4dn、ml.g5、ml.p2、ml.p3 系列中的单 GPU 实例。它也适用于 Amazon SageMaker 支持的所有区域。

首先，请使用我们的 API 或 SageMaker Python SDK 创建具有您选择的实例类型的 MME 端点。要了解更多信息，请访问我们有关 MME for TorchServe 的文档页面，并访问我们的发布博客。

Amazon SageMaker Inference 现在支持适用于 PyTorch 的多模型终端节点

终止对 Internet Explorer 的支持