发布于: Sep 9, 2022

Amazon SageMaker 使客户能够部署机器学习模型来对任何使用案例进行预测(也称为推理)。您现在可以通过配置最大的 EBS 卷大小和超时配额来部署大型模型(最大 500GB),以使用 Amazon SageMaker 的实时和异步推理选项进行推理。此次推出的功能使客户能够利用 SageMaker 完全托管的实时和异步推理功能来部署和管理大型机器学习模型,例如 GPT 和 OPT 的变体。

以前,SageMaker 可将最大 30GB 的 EBS 卷挂载到 SageMaker 端点,这限制了您可以部署的模型的最大大小。现在,EBS 卷大小可配置为最大 500GB,使您能够使用更大的模型并打包更多资源以满足您的推理需求。此外,容器运行状况检查和下载超时配额也可配置为最长 60 分钟,让您有更多时间下载和加载模型及相关资源。这些更改合在一起使您能够使用 SageMaker 部署更高级的深度学习模型,这些模型往往规模更大。例如,借助最近推出的 ml.p4d 和 ml.g5 实例,您可以使用此更改来部署大型模型,这些模型可以利用多个 GPU 中的内存进行高性能推理。

这些新的配置选项在 SageMaker 可用的所有商业区域均已推出。

要开始使用,请在此处阅读我们的文档。有关示例使用案例,请阅读我们的博客文章,了解如何结合使用此更改与 SageMaker 上的 DeepSpeed 在多个 GPU 设备上分发大型模型以实现高性能推理。