发布于: Aug 4, 2023

Amazon SageMaker 训练作业现在支持由 NVIDIA H100 芯片提供支持的 ml.p5 实例,这些芯片专为云中的高性能机器学习训练应用程序而构建。您可以在 SageMaker 上使用 ml.p5 实例来训练一些要求最严苛的模型。这包括大型语言模型 (LLM) 和扩散模型,为要求最严苛的生成式 AI 应用提供支持。这些应用包括问题解答、代码生成、视频和图像生成、语音识别。

ml.p5 实例目前配备了多达 8 个最新的 NVIDIA H100 Tensor Core GPU。与上一代基于 GPU 的实例相比,P5 实例对 NVIDIA H100 Tensor Core GPU 进行了补充,CPU 性能提高了 2 倍,系统内存提高了 2 倍,本地存储空间增加了 4 倍。它们为分布式训练和紧密耦合的 HPC 工作负载提供市场领先的横向扩展功能,使用第二代 Elastic Fabric Adapter (EFA) 技术实现了高达 3,200Gbps 的网络连接。

SageMaker 模型训练目前在 AWS 美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)区域支持 ml.p5 实例,大小为 ml.p5.48xlarge。

要了解有关 ml.p5 实例的更多信息,请访问 P5 实例页面。要开始使用 ml.p5 实例,请登录 Amazon SageMaker 控制台。要了解有关 Amazon SageMaker 模型训练的更多信息,请访问我们的网页