跳至主要内容

Amazon EC2

Amazon EC2 DL1 实例

降低深度学习模型的训练成本

为什么选择 Amazon EC2 DL1 实例?

Amazon EC2 DL1 实例由 Habana Labs(Intel 公司)的 Gaudi 加速器提供支持,可以为自然语言处理、对象检测和图像识别使用案例提供低训练成本的深度学习模型。与当前一代基于 GPU 的 EC2 实例相比,DL1 实例为训练深度学习模型提供多达 40% 的性价比。

Amazon EC2 DL1 实例具有 8 个 Gaudi 加速器,每个加速器搭载 32 GiB 的高带宽内存 (HBM),此外还配备 768GiB 的系统内存、定制的第二代英特尔至强可扩展处理器、400Gbps 的联网吞吐量以及 4TB 的本地 NVMe 存储。

DL1 实例包括 Habana SynapseAI® SDK,集成先进的机器学习框架,例如 TensorFlow 和 PyTorch。

借助 AWS Deep Learning AMI 或 AWS Deep Learning Containers,或者适用于容器化应用程序的 Amazon EKS 和 ECS,您可以轻松开始使用 DL1 实例。Amazon SageMaker 中即将推出对 DL1 实例的支持

新 Amazon EC2 DL1 实例概述视频

优势

    与基于 GPU 的近期 EC2 实例相比,DL1 实例为训练深度学习模型提供多达 40% 的性价比。这些实例配备专为训练深度学习模型设计的 Gaudi 加速器。您还可以使用 EC2 Savings Plan 显著降低深度学习模型的训练成本,从而进一步节省成本。

    各专业级别的开发人员均可轻松开始使用 DL1 实例。他们可以借助 AWS DL AMI 和 DL Containers 开始使用 DL1 实例,从而继续使用他们自己的工作流管理服务。高级用户还可以使用 Gaudi 的可编程 Tensor Processing Core(TPC)构建自定义内核,优化他们的模型性能。借助 Habana SynapseAI® 工具,他们只需进行很少的代码更改,即可将基于 GPU 或 CPU 的实例上运行的现有模型无缝迁移到 DL1 实例。

    DL1 实例支持先进的 ML 框架(例如 TensorFlow 和 PyTorch),允许您继续使用自己首选的 ML 工作流。您可以访问 Habana 的 GitHub 存储库上经过优化的模型(例如适用于对象检测的 Mask R-CNN、适用于自然语言处理的 BERT),快速构建、训练和部署您自己的模型。SynapseAI 的丰富 Tensor Processing Core(TPC)内核库支持广泛运算符和多种数据类型,可以满足一系列模型和性能需求。

功能

    DL1 实例由 Habana Labs(Intel 公司)的 Gaudi 加速器提供支持,配备八个完全可编程的 TPC,并且每个加速器搭载 32 GiB 的高带宽内存。这些实例具有可更大限度地提高训练效率的异构计算架构,以及用于矩阵数据运营的可配置集中式引擎。它们还具有行业的唯一原生集成,每个 Gaudi 加速器配备十个 100GB 以太网端口,从而在加速器之间实现低延迟通信。

    SynapseAI® SDK 包括图形编译器和运行时、TPC 内核库、固件、驱动程序和工具。它集成了先进框架,例如 TensorFlow 和 PyTorch。 它的通信库有助于快速纵向扩展到多个加速器,而使用的操作与您现在使用的基于 GPU 的实例相同。这种确定性扩展可以跨各种神经网络拓扑提高利用率和效率。 借助 SynapseAI® 工具,您只需进行很少的代码更改,即可将您的现有模型集成到 DL1 实例并在上面运行。

    对于需要访问高速联网的应用程序,DL1 实例提供 400Gbps 的联网吞吐量,并且支持连接 Amazon Elastic Fabric Adapter(EFA)和 Amazon Elastic Network Adapter(ENA)。为快速访问大型数据集,DL1 实例还包括 4TB 的本地 NVMe 存储,并提供 8GB/秒的读取吞吐量。

    DL1 实例依托 AWS Nitro System 构建,该系统是丰富的构建数据块集合,可将许多传统虚拟化功能卸载到专用硬件和软件,实现高性能、高可用性和高安全性,同时还可降低虚拟化开销。

产品详细信息

实例大小
vCPU
实例内存(GiB)
Gaudi 加速器
网络带宽(Gbps)
加速器对等双向 (Gbps)
实例存储 (GB)
EBS 带宽(Gbps)
点播(价格/小时)
1 年预留实例(每小时生效)
三年期预留实例的有效小时*
dl1.24xlarge

96

768

8

400

100

4 x 1000 
NVMe SSD

19

13.11 美元

7.87 美元

5.24 美元

*显示的价格适用于美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)区域。

 

Seagate

40 多年来,Seagate Technology 在提供数据存储和管理解决方案领域一直是全球领先公司。希捷的数据科学和机器学习工程师已经构建了先进的深度学习 (DL) 缺陷检测系统,并将其部署到公司的全球制造工厂。 在近期的概念验证项目中,Habana Gaudi 超额完成了 Seagate 生产环境中当前所用的其中一个 DL 语义分割模型的训练性能目标。 

“我们预计,由哈瓦那高迪加速器提供支持的亚马逊 EC2 DL1 实例的显著性价比优势可能会成为未来AWS计算集群的引人注目的补充。随着 Habana Labs 持续发展并且支持覆盖更广泛的运算符,有可能扩展到其他企业使用案例,从而节省更多成本。”

Darrell Louder,运营、技术和高级分析高级工程总监-希捷
Missing alt text value

Leidos

Leidos 是公认的十大健康领域 IT 提供商,为医院和健康系统、生物医学组织以及每个专注于健康的美国联邦机构提供广泛的可定制、可扩展的解决方案。 

“我们当今推动医疗保健发展的众多技术之一是使用机器学习和深度学习进行基于医学成像数据的疾病诊断。我们需要及时有效地训练海量数据集,才能帮助研究人员解决一些非常紧迫的医疗谜团。鉴于 Leidos 及其客户要求以快速、简单且经济高效的方式训练深度学习模型,我们很高兴能够与 Intel 和 AWS 一起开始基于 Habana Gaudi AI 处理器使用 Amazon EC2 DL1 实例。使用 DL1 实例,我们预计模型训练的速度和效率会提高,从而降低研发的风险和成本。“

Chetan Paul,健康与公共服务首席技术官-Leidos
Missing alt text value

英特尔

Intel 开发了 3D 运动员追踪技术,可以实时分析运动员行动视频,指导性能训练流程,并且提高比赛期间的观众体验。

“在由哈瓦那实验室的高迪加速器提供支持的 Amazon EC2 DL1 实例上训练我们的模型,将使我们能够准确、可靠地处理数千个视频并生成相关的性能数据,同时降低训练成本。借助 DL1 实例,我们现在可以以所需的速度和成本进行训练,为各种体育项目的各级运动员、球队和广播员提供高效服务。“

英特尔销售和市场部副总裁 Rick Echevarria
Missing alt text value

RiskFuel

RiskFuel为管理金融投资组合的公司提供实时估值和风险敏感度,帮助他们提高交易准确性和绩效。

“有两个因素吸引我们选择了基于哈瓦那高迪人工智能加速器的亚马逊 EC2 DL1 实例。第一,我们希望确保我们的银行和保险客户能够运行利用新硬件的 Riskfuel 模型。幸运的是,我们发现将模型迁移到 DL1 实例非常简单明了 – 实际上,只需更改几行代码即可。其次,培训成本是我们支出的重要组成部分,承诺将性价比提高多达40%,这可能会为我们的利润带来实质性的好处。“

Riskfuel首席执行官瑞安·弗格森
Missing alt text value

Fractal


Fractal 是人工智能和分析领域的全球领先公司,为财富 500 强公司提供决策支持。
 

“人工智能和深度学习是我们机器视觉能力的核心,使客户能够在我们所服务的行业中做出更好的决策。为提高准确度,数据集变得更大、更复杂,需要更大、更复杂的模型。这就需要改进计算价格性能。新 Amazon EC2 DL1 实例相较于基于 GPU 的 EC2 实例,保证可以显著降低训练成本。我们预计,这将使云端人工智能模型的训练比以前更具成本竞争力,更易于广大客户使用。“

Fractal 集团首席执行官 Srikanth Velamakanni
Missing alt text value

开始使用

AWS Deep Learning AMIs(DLAMI)和 AWS Deep Learning Containers(DLC)

AWS Deep Learning AMIs(DLAMI)和 AWS Deep Learning Containers(DLC)为数据科学家、ML 从业者和研究人员提供预先通过深度学习框架安装的机器和容器映像,让您可以跳过从头构建和优化软件环境的复杂流程,从而轻松入门。适用于 Gaudi 加速器的 SynapseAI SDK 已集成到 AWS DL AMI 和 DLC,支持您快速开始使用 DL1 实例。

Amazon Elastic Kubernetes Service(EKS)或 Elastic Container Service(ECS)

首选通过容器编排服务管理其容器化工作负载的客户可以使用 Amazon EKSECS 部署 DL1 实例。

找到今天要查找的内容了吗?

请提供您的意见,以便我们改进网页内容的质量