发布于: Aug 20, 2021

我们即将推出 Amazon SageMaker 中的全新推理选项 Amazon SageMaker 异步推理,可将传入请求排入队列并进行异步处理。此选项适用于需要随请求到达进行处理的负载大小较大(高达 1GB)和/或处理时间较长(长达 15 分钟)的推理。异步推理使您能够在没有请求要处理时将实例计数弹性伸缩为零以便节省成本,这样您就只需在端点处理请求时才支付费用。

推出异步推理后,Amazon SageMaker 即提供三个用于部署经过训练的机器学习模型的选项,以用于生成对新数据的推理。实时推理适用于负载大小高达 6MB,且需要以毫秒或秒量级的低延迟要求进行处理的工作负载。批量转换适用于对预付费用的大批量数据的离线预测。新的异步推理选项适用于请求大小较大(高达 1GB)且推理处理时间以分钟(高达 15 分钟)为量级的工作负载。异步推理的示例工作负载包括在一天中的不同时间间隔对移动设备生成的高分辨率图像进行预测,并在收到请求后几分钟内提供响应。对于可以容忍几分钟冷启动影响的使用案例,您可以在没有未完成的请求时选择将端点实例计数缩减到零,而当出现新请求时,可以重新扩展至原来的大小,这样您只需要为端点积极处理请求的这段时间付费。

创建异步推理端点与创建实时端点类似。您可以使用您现有的 Amazon SageMaker 模型,并且只需要在创建端点配置时指定额外的异步推理特定配置参数。要调用端点,您需要将请求负载放置在 Amazon S3 中,并提供指向负载的指针,作为调用请求的一部分。调用时,Amazon SageMaker 将请求放入队列以进行处理,并返回一个输出位置作为响应。处理时,Amazon SageMaker 将推理响应放置在先前返回的 Amazon S3 位置。您可以选择通过 Simple Notification Service (SNS) 接收成功或错误通知。

如需关于如何创建、调用和监控异步推理端点的详细描述,请阅读我们的文档,其中还包括帮助您开始使用的示例笔记本。有关定价信息,请访问 Amazon SageMaker 定价页面。Amazon SageMaker 异步推理在所有推出了 Amazon SageMaker 的商业 AWS 区域可用,但不包括亚太地区(大阪)、欧洲(米兰)和非洲(开普敦)。