发布于: Nov 11, 2022
Amazon SageMaker 训练作业现在支持由 AWS Trainium 芯片提供支持的 ml.trn1 实例,这些芯片专为云中的高性能机器学习训练应用程序而构建。您可以在 SageMaker 上使用 ml.trn1 实例,在广泛的应用程序中训练自然语言处理 (NLP)、计算机视觉和推荐模型,例如语音识别、推荐、欺诈检测、图像和视频分类以及预测。
ml.trn1 实例最多可以支持 16 个 AWS Trainium 芯片,这是 AWS 继 AWS Inferentia 之后构建的第二代机器学习芯片。ml.trn1 实例是首批具有高达 800Gbps Elastic Fabric Adapter (EFA) 网络带宽的 EC2 实例。为了实现高效的数据和模型并行性,每个 ml.trn1.32xl 实例都有 512GB 的高带宽内存,提供高达 3.4 petaflops 的 FP16/BF16 计算能力,并具有 NeuronLink(这是一种实例内高带宽非阻塞互连)。
ml.trn1 实例有两种大小:ml.trn1.2xlarge(用于试验单个加速器并经济高效地训练小型模型)和 ml.trn1.32xlarge(用于训练大型模型)。SageMaker 模型训练目前在 AWS 美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)区域支持 ml.trn1 实例。
要了解有关 ml.trn1 实例的更多信息,请参阅 AWS 新闻博客或访问 Trn1 实例页面。要开始使用 ml.trn1 实例,请登录 Amazon SageMaker 控制台。要了解有关 Amazon SageMaker 模型训练的更多信息,请访问我们的网页。