发布于: Mar 16, 2021
Amazon SageMaker 现在支持在实时终端节点上部署多个容器以实现低延迟推理,并为每个请求单独调用它们。这一新功能使您能够在单个终端节点上运行多达五种不同的机器学习 (ML) 模型和框架,并节省高达 80% 的成本。如果您的多个 ML 模型具有相似的资源需求,并且单个模型没有足够的流量来利用终端节点实例的全部容量时,此功能是您的理想之选。例如,假设您有一组 ML 模型,这些模型很少调用或在不同时间调用,或者您有开发/测试终端节点。
要使用此功能,您需要指定容器列表以及应在终端节点上部署的经过训练的模型,并选择“直接”推理执行模式,该模式指示 SageMaker 独立访问模型。 要对特定模型进行推理,请调用终端节点并在请求标头中指定容器的名称。您可以在直接调用模式下通过指定条件密钥来保护对每个容器的推理请求,还可以在 Amazon CloudWatch 中获取每个容器的指标。
如果要在进行推理时预先/后置处理请求,或者要按顺序运行一组 ML 模型,您也可以在多容器终端节点上按顺序执行容器(即推理管道)。此功能已被作为多容器终端节点的默认行为受到支持,也可以通过将推理执行模式设置为“串行”来启用此功能。