发布于: Nov 12, 2021
今天,我们很高兴宣布在 Amazon SageMaker 上推出 NVIDIA Triton™ 推理服务器,使得选择 NVIDIA Triton 作为其模型服务器的客户能够引入其容器并在 SageMaker 中进行大规模部署。
NVIDIA Triton 是一款开源模型服务器,可运行来自多个机器学习(ML)框架(包括 PyTorch、TensorFlow、XGBoost 和 ONNX)且已经过训练的机器学习(ML)模型。Triton 是一个可扩展的服务器,开发人员可以向其中添加新的前端(可以接收特定格式的请求)和新的后端(可以处理更多的模型执行运行时)。AWS 与 NVIDIA 密切合作,添加了一个与 SageMaker 托管容器兼容的新 Triton 前端和一个与 SageMaker Neo 编译模型兼容的新后端。因此,客户可以使用 Triton 轻松构建包含其模型的自定义容器并将其引入 SageMaker。SageMaker Inference 将处理请求并随着使用量的增加自动扩展容器,从而更轻松地在 AWS 上使用 Triton 部署模型。