发布于: May 4, 2023

我们很高兴地宣布,在 Amazon SageMaker 上推出 ml.inf2 和 ml.trn1 系列实例,用于部署机器学习 (ML) 模型以便进行实时和异步推理。您可以在 SageMaker 上使用这些实例,用很低的成本为生成式人工智能 (AI) 模型(包括大型语言模型 (LLM) 和视觉转换器)实现高性能。此外,您可以使用 SageMaker Inference Recommender 来帮助您运行负载测试,并评估在这些实例上部署模型的性价比优势。

ml.inf2 和 ml.trn1 实例分别由 AWS Inferentia2 和 Trainium 加速器提供支持。

  • 您可以使用 ml.inf2 实例在 SageMaker 上运行机器学习应用程序,以执行文本摘要、代码生成、视频和图像生成、语音识别等。ml.inf2 实例提供高达 384GB 的共享加速器内存,用于高性能生成式人工智能推理。
  • ml.trn1 实例与 ml.inf2 实例类似,但前者具有 512GB 的共享加速器内存;您可以使用这些实例在 SageMaker 上部署更大的模型。此外,这些实例具有高达 8TB 的本地 NVMe 固态硬盘 (SSD) 存储,用于快速访问大型数据集和模型的工作负载。

ml.inf2 实例可用于在美国东部(俄亥俄州)的 SageMaker 上部署模型,ml.trn1 实例可用于在美国东部(弗吉尼亚州北部)的 SageMaker 上部署模型。

部署端点时,您可以轻松地开始将兼容 ml.trn1 和 ml.inf2 的 AWS Deep Learning Containers (DLC) 用于 PyTorch、Tensorflow、HuggingFace 和大型模型推理 (LMI)(详情)。有关定价,请访问我们的定价页面