Amazon EC2 P3 实例

借助功能强大的 GPU 加快机器学习和高性能计算应用程序

Amazon EC2 P3 实例可在云中提供高性能计算,可支持高达 8 个 NVIDIA® V100 Tensor Core GPU,并可为机器学习和 HPC 应用提供高达 100Gbps 的网络吞吐量。这些实例可以实现最高 1 petaflop 的混合精度性能,显著加快机器学习和高性能计算应用程序的速度。事实证明,Amazon EC2 P3 实例可以将机器学习训练时间从几天缩短为几分钟,并将用于高性能计算完成的模拟数量增加 3-4 倍。

Amazon EC2 P3dn.24xlarge 实例的网络带宽高达 P3.16xlarge 实例的 4 倍,其是 P3 系列的最新成员,针对分布式机器学习和 HPC 应用进行了优化。这些实例提供高达 100 Gbps 的网络吞吐量,96 个自定义英特尔至强可扩展处理器 (Skylake) vCPU,8 个 NVIDIA® V100 Tensor Core GPU(每个具有 32 GiB 内存)以及 1.8 TB 基于 NVMe 的本地 SSD 存储。P3dn.24xlarge 实例还支持 Elastic Fabric Adapter (EFA),该服务可以加快使用 NVIDIA Collective Communications Library (NCCL) 的分布式机器学习应用程序。EFA 可以扩展到数千个 GPU,从而显著提高深度学习训练模型的吞吐量和可扩展性,导致更快地产生结果。

Amazon EC2 P3 实例的概览(2:18)

优势

将机器学习训练时间从几天缩短为几分钟

对于需要加快机器学习应用程序速度的数据科学家、研究人员和开发人员来说,Amazon EC2 P3 实例是机器学习训练云中最快的实例。Amazon EC2 P3 实例配备多达 8 个最新一代的 NVIDIA V100 Tensor Core GPU,可以实现最高 1 petaflop 的混合精度性能,显著加快机器学习工作负载的处理速度。更快的模型训练使数据科学家和机器学习工程师能够更快地进行迭代、训练更多模型并提高准确性。

业内针对机器学习训练最经济高效的解决方案

云中最强大的 GPU 实例之一与灵活的定价计划相结合,为机器学习训练提供了极具成本效益的解决方案。与 Amazon EC2 实例一样,P3 实例可用作按需实例、预留实例或 Spot 实例。Spot 实例利用了未使用的 EC2 实例容量,可以大大降低 Amazon EC2 的成本,和按需实例价格相比有高达70%的折扣。

灵活而强大的高性能计算

与本地系统不同,在 Amazon EC2 P3 实例上运行高性能计算几乎可以实现无限的容量来扩展您的基础设施,并且让您可以按照工作负载需求轻松灵活地更改资源。您可以配置资源以满足应用程序的需求,并在几分钟内启动 HPC 集群,并且只需按实际使用量付费。

立刻开始构建

使用预打包的 Docker 镜像在几分钟内部署深度学习环境。该镜像包含要求的深度学习框架库(目前是 TensorFlow 和 Apache MXNet)和工具,并且经过充分测试。您可以在这些镜像之上轻松添加自己的库和工具,以便获得针对监控、合规性和数据处理的更高层次的控制能力。此外,Amazon EC2 P3 实例还可以与 Amazon SageMaker 无缝协作,提供一个功能强大、直观而完整的机器学习平台。Amazon SageMaker 是一种完全托管的机器学习平台,让您可以快速轻松地构建、训练和部署机器学习模型。此外,Amazon EC2 P3 实例还可以与预装了各种常见深度学习框架的 AWS Deep Learning Amazon 系统映像 (AMI) 集成。这让开始机器学习训练和推理变得更快、更容易。

可扩展的多节点机器学习训练

您可以使用多个 Amazon EC2 P3 实例,这些实例具有高达 100Gbps 的网络吞吐量,从而加速训练机器学习模型。更高的网络吞吐量使开发人员能够消除数据传输瓶颈,并在多个 P3 实例中有效地扩展其模型训练作业。客户可以使用 16 个 P3 实例在短短 18 分钟内将 ResNet-50 (一种常见的图像分类模型) 训练到行业标准精度。绝大多数机器学习客户以前无法达到这种性能水平,因为它需要大量的资本支出投资来构建本地 GPU 集群。有了 P3 实例及其按需使用模型的可用性,现在所有开发人员和机器学习工程师都可以达到这种级别的性能。此外,P3dn.24xlarge 实例还支持 Elastic Fabric Adapter (EFA),该服务使用 NVIDIA Collective Communications Library (NCCL) 扩展到数千个 GPU。

支持所有主流机器学习框架

Amazon EC2 P3 实例支持所有主流机器学习框架,包括 TensorFlow、PyTorch、Apache MXNet、Caffe、Caffe2、Microsoft Cognitive Toolkit (CNTK)、Chainer、Theano、Keras、Gluon 和 Torch。您可以灵活地选择最适合您应用程序的框架。

客户案例

Airbnb

Airbnb 使用机器学习来优化搜索建议,并改善面向房主的动态定价指导,从而提高预订转化量。利用 Amazon EC2 P3 实例,Airbnb 能够更快地运行训练工作负载、进行更多迭代、构建更好的机器学习模型并降低成本。

Celgene

Celgene 是一家跨国生物科技公司,专注于开发与患者治疗匹配的靶向疗法。该公司在 Amazon EC2 P3 实例上运行其 HPC 工作负载,以进行下一代基因组测序和化学模拟。利用此计算能力,Celgene 可以训练深度学习模型,以区分恶性肿瘤细胞和良性肿瘤细胞。使用 P3 实例前,需要两个月才能运行大规模计算作业,现在仅需要四小时。AWS 技术使 Celgene 能够加快癌症和炎症药物治疗的开发。

Hyperconnect 专注于将基于机器学习的新技术应用到图像和视频处理,它是首家为移动平台开发 webRTC 的公司。

“Hyperconnect 在其视频通信应用程序中使用基于 AI 的图像分类技术,以便对用户当前所在的环境进行识别。我们从本地工作站迁移到采用 Horovod 的多 Amazon EC2 P3 实例,从而将我们的 ML 模型训练时间从超过一星期缩短至不到一天。通过采用 PyTorch 作为我们的机器学习框架,我们可以快速开发模型,并且利用开放源社区中可用的库。”

Sungjoo Ha,Hyperconnect 的 AI 实验室总监

阅读完整案例研究 »

NerdWallet 是一家个人财务管理初创公司,它可以提供工具和建议,使客户能够更轻松地偿还债务,选择最出色的理财产品与服务,以及达成重大的人生目标,例如,购房和为退休储蓄资金等。该公司严重依赖数据科学和机器学习 (ML),将客户与个性化理财产品关联在一起。

使用搭载 NVIDIA V100 Tensor Core GPU 的 Amazon SageMaker 和 Amazon EC2 P3 不仅提升了 NerdWallet 的灵活性和性能,而且还缩短了数据科学家训练 ML 模型所需的时间。“我们过去需要数个月时间启动模型并对其进行迭代;现在,只要几天就够了。”

Ryan Kirkman,NerdWallet 的高级工程经理

阅读完整的案例研究 »

作为质量系统解决方案的领导者,Aon 的 PathWise 是一款基于云的 SaaS 应用程序套件,该套件专门为各种客户进行企业风险管理建模,为其提供快速、可靠、安全的按需服务。

“Aon 的 PathWise Solutions Group 所提供的风险管理解决方案让我们的客户可以利用最新的技术快速克服当今的主要保险挑战,例如,管理与测试对冲策略、监管和经济预测,以及编列预算等。从 2011 年至今,PathWise 一直在 AWS 的生产环境中运行,而现在,他们运用 Amazon EC2 P 系列实例,在不断进步和发展的市场中为世界各地的客户加快计算速度,从而克服这些挑战。”

Peter Phillips,PathWise Solutions Group 的总裁兼 CEO

阅读案例研究 »

Pinterest

Pinterest 在 AWS 上的 P3 实例中使用混合精确训练加快深度学习模型的训练速度,同时使用这些实例实现模型的更快推理,从而为用户提供快速而独特的发现体验。Pinterest 使用通过 PyTorch 在 AWS 上构建的 PinSage。这款 AI 模型基于特定主题将图像组合在一起。通过平台上的 30 亿幅图像,有 180 亿种不同方式将图像关联在一起。这些关联有助于 Pinterest 将主题、风格置于上下文中,并产生更多个性化用户体验。

Salesforce

Salesforce 使用机器学习为 Einstein Vision 提供支持,让开发人员能够将图像识别功能用于视觉搜索、品牌检测和产品识别等场景。Amazon EC2 P3 实例让开发人员能够更快地训练深度学习模型,从而快速实现机器学习目标。

Schrodinger

Schrodinger 使用高性能计算 (HPC) 来开发各种预测模型,以便扩大发现和优化的范围,让自己的客户能够更快速地将救生药物推向市场。利用 Amazon EC2 P3 实例,Schrodinger 在一天内执行的模拟次数达到了 P2 实例的四倍。 

Subtle Medical 是一家致力于通过创新的深度学习解决方案改善医疗成像效率与优化患者体验的医疗技术公司。他们的团队由知名的成像科学家、放射科医生,以及来自 Stanford、MIT、MD Anderson 的 AI 专家等专业人员组成。

“医院和医学影像中心都希望采用此解决方案,避免在 IT 部门获得 GPU 专业技术,构建并维护成本高昂的数据中心或迷你云的过程中给他们造成额外的负担。他们想用最少的精力和投资来进行成功部署……AWS 使这一切成为可能。”

Enhao Gong,Subtle Medical 的创办者兼 CEO

阅读完整案例研究 »

Western Digital

Western Digital 使用 HPC 针对材料学、热流、磁学和数据传输运行成千上万次模拟,以便提高硬盘和存储解决方案的性能与质量。早期测试表明,与以前部署的解决方案相比,P3 实例让工程团队运行模拟的速度至少加快了三倍。 

Amazon EC2 P3 实例和 Amazon SageMaker

训练和运行机器学习模型的最快方法

Amazon SageMaker 是一种完全托管的服务,用于构建、训练和部署机器学习模型。将其与 Amazon EC2 P3 实例配合使用,客户可以轻松扩展至数十、数百或数千个 GPU,从而以任何规模快速训练模型,而无需担心设置集群和数据管道。您还可以在 Amazon SageMaker 中轻松访问 Amazon Virtual Private Cloud (Amazon VPC) 资源,用于训练和托管工作流程。借助这项功能,您可以使用只能通过自己的 VPC 访问的 Amazon Simple Storage Service (Amazon S3) 存储桶来存储训练数据,并存储和托管在训练过程中产生的模型构件。除了 S3 之外,模型还可以访问 VPC 中包含的其他所有 AWS 资源。了解更多

构建

Amazon SageMaker 可以轻松构建机器学习模型,并为训练做好准备。它提供了快速连接到训练数据所需的一切,并为您的应用选择和优化最佳算法和框架。Amazon SageMaker 包含托管的 Jupyter 笔记本,您可以轻松浏览和可视化在 Amazon S3 中存储的训练数据。  您还可以使用笔记本实例编写代码,以便创建模型训练作业、将模型部署到 Amazon SageMaker 托管服务以及测试或验证模型。

训练

只需在控制台中单击一下或调用一次 API,即可开始训练模型。Amazon SageMaker 预先配置了最新版本的 TensorFlow 和 Apache MXNet,并且支持 CUDA9 库,可以让 NVIDIA GPU 实现最佳性能。此外,超参数优化功能可以通过智能调整模型参数的不同组合来自动调整模型,以快速达到最准确的预测。对于更大规模的需求,您可以扩展到数十个实例以支持更快的模型构建。

部署

训练结束后,您可以跨多个可用区在自动扩展的 Amazon EC2 实例上一键部署模型。投入生产后,Amazon SageMaker 能够代您管理计算基础设施,通过内置的 Amazon CloudWatch 监控和日志记录功能来执行运行状况检查、应用安全补丁并执行其他例行维护。

 

Amazon EC2 P3 实例和 AWS Deep Learning AMI

预先配置了开发环境,可快速开始构建深度学习应用程序

对于具有更多定制需求的开发人员而言,可使用 AWS Deep Learning AMI 来替代 Amazon SageMaker,前者为机器学习实践者和研究人员提供了基础设施和工具,以加快在云中任意规模的深度学习。您可以快速启动预先安装了常见深度学习框架(如 TensorFlow、PyTorch、Apache MXNet、Microsoft Cognitive Toolkit、Caffe、Caffe2、Theano、Torch、Chainer、Gluon 和 Keras)的 Amazon EC2 P3 实例来训练复杂的自定义 AI 模型、试验新算法或学习新技能和技巧。了解更多 >>

Amazon EC2 P3 实例和高性能计算

解决大量计算问题,并利用 AWS 上 HPC 的功能获得全新见解

Amazon EC2 P3 实例是运行工程模拟、计算金融学、地震分析、分子建模、基因组学、渲染以及其他 GPU 计算工作负载的理想平台。高性能计算 (HPC) 让科学家和工程师能够解决这些复杂的计算密集型问题。HPC 应用程序通常需要高网络性能、快速存储、大量内存、超高计算能力或上述所有条件。通过 AWS,您可以在云中运行 HPC,并将并行任务的数量增加到大多数本地环境都无法支持的规模,从而提高研究速度并缩短获得成效的时间。例如,P3dn.24xlarge 实例支持 Elastic Fabric Adapter (EFA),该服务启用使用消息传递接口 (MPI) 的 HPC 应用程序扩展到数千个 GPU。AWS 可以提供针对具体应用程序优化过的解决方案,从而帮助客户降低成本,无需巨额资金投入。了解更多 >>

支持 NVIDIA RTX 虚拟工作站

NVIDIA RTX 虚拟工作站 AMI 使用在 AWS 云中运行的强大 P3 实例(配备 NVIDIA Volta V100 GPU)实现了高图形性能。这些 AMI 预先安装了最新的 NVIDIA GPU 图形软件和最新的 RTX 驱动程序,并通过了 NVIDIA ISV 认证,支持高达 4K 桌面分辨率。配备 NVIDIA V100 GPU 的 P3 实例与 RTX vWS 相结合,可在云中提供高性能工作站,该工作站具有高达 32 GiB 的 GPU 内存、快速射线跟踪和支持 AI 的渲染功能。

全新 AMI 可在 AWS Marketplace 上找到,支持 Windows Server 2016Windows Server 2019

Amazon EC2 P3dn.24xlarge 实例

运行更快、性能更强、规模更大的实例大小,针对分布式机器学习和高性能计算优化

Amazon EC2 P3dn.24xlarge 实例是目前运行最快、性能最强、规模最大的 P3 实例,可提供高达 100 Gbps 的网络吞吐量,配备 8 个 NVIDIA® V100 Tensor Core GPU(每个配有 32 GiB 内存)、96 个自定义英特尔至强可扩展处理器 (Skylake) vCPU 和 1.8 TB 基于 NVMe 的本地 SSD 存储。利用更快的网络速度、全新处理器、两倍的 GPU 内存和更多 vCPU,开发人员可以大大缩短训练机器学习模型的时间,或者通过跨多个实例(例如 16、32 或 64 个实例)扩展作业来运行更多 HPC 模拟。机器学习模型需要大量的数据用于训练,除了增加实例间传递数据的吞吐量外,还需要 P3dn.24xlarge 实例的额外网络吞吐量,P3dn.24xlarge 实例可以通过连接至 Amazon S3 或 Amazon EFS 等共享文件系统解决方案来加速对大量训练数据的访问。

消除瓶颈并减少机器学习训练时间

凭借 100 Gbps 的网络吞吐量,开发人员可以有效地将大量的 P3dn.24xlarge 实例用于分布式训练,显著缩短训练模型的时间。具有 AVX-512 指令的 AWS 定制英特尔 Skylake 处理器的 96vCPU 以 2.5GHz 的速度运行,有助于优化数据的预处理。另外,P3dn.24xlarge 实例使用 AWS Nitro 系统,该系统是专用硬件和轻量管理程序的组合,几乎可将主机硬件的所有计算和内存资源都提供给您的实例。P3dn.24xlarge 实例还支持 Elastic Fabric Adapter,该服务启用使用 NVIDIA Collective Communications Library (NCCL) 的 ML 应用程序扩展到数千个 GPU。

通过优化 GPU 利用率降低 TCO

使用最新版 Elastic Network Adapter 的增强网络,聚合网络带宽最高可达 100Gbps,不仅可以跨多个 P3dn.24xlarge 实例共享数据,还可以通过 Amazon S3 或 Amazon EFS 等共享文件系统解决方案进行高吞吐量数据访问。高吞吐量数据访问对于优化 GPU 利用率和从计算实例提供最大性能至关重要。

支持更大型更复杂的模型

P3dn.24xlarge 实例提供了具有 32GiB 内存的 NVIDIA V100 Tensor Core GPU,使训练更高级更大型的机器学习模型具有灵活性,并且可以处理更大批量的数据,如用于图像分类和对象检测系统的 4k 图像。

Amazon EC2 P3 实例产品详细信息

实例大小 GPU – Tesla V100 GPU 对等 GPU 内存 (GB) vCPU 内存 (GB) 网络带宽 EBS 带宽 按需价格/小时* 一年期预留实例的有效小时* 三年期预留实例的有效小时*
p3.2xlarge 1 不适用 16 8 61 最高 10Gbps 1.5Gbps 3.06 USD 1.99 USD 1.05 USD
p3.8xlarge 4
NVLink 64 32 244 10Gbps 7Gbps 12.24 USD 7.96 USD 4.19 USD
p3.16xlarge 8 NVLink 128 64 488 25Gbps 14Gbps 24.48 USD 15.91 USD 8.39 USD
p3dn.24xlarge 8 NVLink 256 96 768 100Gbps 19Gbps 31.218 USD 18.30 USD 9.64 USD

* – 所示价格适用于美国东部(弗吉尼亚北部)AWS 区域的 Linux/Unix,价格已四舍五入至最接近的美分。如需了解完整的定价详情,请参阅 Amazon EC2 定价页面。

客户能够以按需实例、预留实例、Spot 实例和专用主机的形式购买 P3 实例。

按秒计费

您可以根据需要预置或取消预置资源,这种弹性是云计算的诸多优势之一。计费的最小单位为秒,我们让客户能够提高弹性、节省资金并优化资源分配,以便实现机器学习目标。

预留实例定价

相比较按需实例的定价,预留实例为您提供大幅折扣(高达 75%)。此外,预留实例在分配给特定可用区后,可以提供容量预留,让您更相信自己能够按需启动实例。

Spot 定价

使用 Spot 实例时,您支付的是在实例运行期间生效的 Spot 价格。Spot 实例的价格由 Amazon EC2 设置,并根据 Spot 实例容量的长期供求趋势逐步调整。与按需定价相比,使用 Spot 实例最高可享受 90% 的折扣。

最广泛的全球可用性

P3 实例全球可用性

Amazon EC2 P3.2xlarge,P3.8xlarge 和 P3.16xlarge 实例已在 14 个 AWS 区域推出,因此客户可以灵活地在存储数据的任何地方训练和部署机器学习模型。P3 已在下列 AWS 区域推出:美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)、加拿大(中部)、欧洲(爱尔兰)、欧洲(法兰克福)、欧洲(伦敦)、亚太地区(东京)、亚太地区(首尔)、亚太地区(悉尼)、亚太地区(新加坡)、中国(北京)、中国(宁夏)和 GovCloud(美国西部)。

P3dn.24xlarge 实例在亚太地区(东京)、欧洲(爱尔兰)、美国东部(弗吉尼亚北部)和美国西部(俄勒冈)、GovCloud(美国西部)和 GovCloud(美国东部)AWS 区域可用。

开始使用 Amazon EC2 P3 实例进行机器学习

要在几分钟内开始,请详细了解 Amazon SageMaker 或使用预装了 Caffe2 和 Mxnet 等常见深度学习框架的 AWS Deep Learning AMI。另外,您也可以使用预装了 GPU 驱动程序和 CUDA 工具包的 NVIDIA AMI

博客、文章和网络研讨会

 
Randall Hunt
2017 年 11 月 29 日
 
Cynthya Peranandam
2017 年 9 月 13 日
 
Amr Ragab、Chetan Kapoor、Rahul Huilgol、Jarvis Lee、Tyler Mullenbach 以及 Yong Wu
2018 年 7 月 20 日
 
Aaron Markham
2018 年 12 月 17 日
 
 
 
Brent Langston
2019 年 2 月 13 日

广播日期:2018 年 12 月 19 日

级别:200

计算机视觉涉及的是如何训练计算机从数字图像或视频中获得高层次的理解。计算机视觉的历史可追溯到 20 世纪 60 年代,但处理技术最近取得的进展使无人驾驶汽车导航等应用程序成为可能。本技术讲座将回顾为计算机视觉构建、培训和部署机器学习模型所需的不同步骤。我们将使用不同的 Amazon EC2 实例比较和对比计算机视觉模型的训练,并强调使用 Amazon EC2 P3 实例可能节省多少时间。

广播日期:2018 年 7 月 31 日

200 级

组织可以以指数方式处理横跨先进科学、能量、高科技和医疗领域的复杂问题。Machine learning (ML) 使快速探索大量场景成为可能,并且可以产生最佳答案,范围从图像、视频和语言识别到无人驾驶汽车系统和天气预报不等。对于想要加快 ML 应用程序开发速度的数据科学家、研究人员和开发人员来说,Amazon EC2 P3 实例是云中最强大、最经济高效且最通用的 GPU 计算实例。

关于 Amazon SageMaker

单击此处了解更多信息

关于 Deep Learning on AWS

单击此处了解更多信息

关于高性能计算 (HPC)

单击此处了解更多信息
准备好开始使用了吗?
注册
还有更多问题?
联系我们