Amazon EC2 P3 实例

借助功能强大的 GPU 加快机器学习和高性能计算应用程序

Airbnb、Salesforce 和 Western Digital 等领先公司使用 Amazon EC2 P3 实例为其机器学习和高性能计算应用程序提供支持。
Amazon EC2 P3 实例可以提供最高的云中计算性能,并且经济高效,支持所有主流机器学习框架,现已在全球推出。
Amazon EC2 P3 实例最多配备 8 块最新一代的 NVIDIA Tesla V100 GPU,每个实例可以实现最高 1 petaflop 的混合精度性能,显著加快机器学习和高性能计算应用程序的速度。事实证明,Amazon EC2 P3 实例可以将机器学习训练时间从几天缩短为几分钟,并且缩短了高性能计算获得结果的时间。

ReInvent_HA_P3_EDITORIAL
云中有 88% 的 TensorFlow 项目都在 AWS 上运行。
在该报告中,Nucleus Research 揭示了深度学习实践者选择 AWS 而非其他云提供商进行深度学习的五大原因。

观看:了解有关 Amazon EC2 P3 实例的更多信息,并了解 Airbnb 如何使用它来支持自己的机器学习应用程序(48 分 08 秒)。
AWS re:Invent 2017:Amazon EC2 P3 实例简介

优势

将机器学习训练时间从几天缩短为几分钟

对于需要加快机器学习应用程序速度的数据科学家、研究人员和开发人员来说,Amazon EC2 P3 实例是云中最强大的 GPU 计算工具。Amazon EC2 P3 实例最多配备 8 块最新一代的 NVIDIA Tesla V100 GPU,可以实现最高 1 petaflop 的混合精度性能,显著加快机器学习工作负载的处理速度。更快的模型训练使数据科学家和机器学习工程师能够更快地进行迭代、训练更多模型并提高准确性。

 

业内最经济高效的解决方案

Amazon EC2 P3 实例提供不同的定价方案,让您能够根据自己的需求来节约成本。  除了按需实例(只为启动的实例付费)之外,您还可以购买折扣非常大的预留实例,在一年到三年的期限内随时使用。您也可以使用 Spot 实例,这种实例可以利用未使用的 EC2 实例,大幅降低您的 Amazon EC2 成本。

灵活而强大的高性能计算

与本地系统不同,在 Amazon EC2 P3 实例上运行高性能计算几乎可以实现无限的容量来扩展您的基础设施,并且让您可以按照工作负载需求轻松灵活地更改资源。您可以配置资源以满足应用程序的需求,并在几分钟内启动 HPC 集群,并且只需按实际使用量付费。

与 AWS 机器学习服务集成

Amazon EC2 P3 实例可以与 Amazon SageMaker 无缝协作,提供一个功能强大、直观而完整的机器学习平台。Amazon SageMaker 是一种完全托管的机器学习平台,让您可以快速轻松地构建、训练和部署机器学习模型。此外,Amazon EC2 P3 实例还可以与预装了各种常见深度学习框架的 AWS Deep Learning Amazon 系统映像 (AMI) 集成,让您可以更轻松地开始训练和推理。

支持所有主流机器学习框架

Amazon EC2 P3 实例支持所有主流机器学习框架,包括 TensorFlow、PyTorch、Apache MXNet、Caffe、Caffe2、Microsoft Cognitive Toolkit (CNTK)、Chainer、Theano、Keras、Gluon 和 Torch。用户可以选择最适合其应用程序的框架。

可扩展的多节点机器学习训练

客户可以使用多个 EC2 P3 实例来快速训练机器学习模型。客户可以配置存储集群和计算集群,用存储集群来存储训练和验证数据集,并将数据传递到计算集群,同时用计算集群来执行正向传递、反向传播和权重更新。

客户案例

200x100_AirBNB_Logo

Airbnb 使用机器学习来优化搜索建议,并改善面向房主的动态定价指导,从而提高预订转化量。利用 Amazon EC2 P3 实例,Airbnb 能够更快地运行训练工作负载、进行更多迭代、构建更好的机器学习模型并降低成本。

salesforce_logo_200x100

Salesforce 使用机器学习为 Einstein Vision 提供支持,让开发人员能够将图像识别功能用于视觉搜索、品牌检测和产品识别等场景。Amazon EC2 P3 实例让开发人员能够更快地训练深度学习模型,从而快速实现机器学习目标。

western-digital_200x100

Western Digital 使用高性能计算 (HPC) 针对材料学、热流、磁学和数据传输运行成千上万次模拟,以便提高硬盘和存储解决方案的性能与质量。早期测试表明,与以前部署的解决方案相比,Amazon EC2 P3 实例让工程团队运行模拟的速度至少加快了三倍。 

schrodinger-200x100

Schrodinger 使用高性能计算 (HPC) 来开发各种预测模型,以便扩大发现和优化的范围,让自己的客户能够更快速地将救生药物推向市场。利用 Amazon EC2 P3 实例,Schrodinger 在一天内执行的模拟次数达到了 P2 实例的四倍。 

Amazon EC2 P3 实例和 Amazon SageMaker

训练和运行机器学习模型的最快方法

Amazon SageMaker 是一种完全托管的服务,用于构建、训练和部署机器学习模型。将其与 Amazon EC2 P3 实例配合使用,客户可以轻松扩展至数十、数百或数千个 GPU,从而以任何规模快速训练模型,而无需担心设置集群和数据管道。您还可以在 Amazon SageMaker 中轻松访问 Amazon Virtual Private Cloud (VPC) 资源,用于训练和托管工作流程。借助这项功能,您可以使用只能通过自己的 VPC 访问的 Amazon Simple Storage Service (S3) 存储桶来存储训练数据,并存储和托管在训练过程中产生的模型。除了 S3 之外,模型还可以访问 VPC 中包含的其他所有 AWS 资源。了解更多

构建

Amazon SageMaker 提供了快速连接到您的训练数据所需的所有内容,因此您可以轻松构建机器学习模型并为训练做好准备,以及为应用程序选择和优化最佳算法和框架。Amazon SageMaker 包含托管的 Jupyter 笔记本,您可以轻松浏览和可视化在 Amazon S3 中存储的训练数据。  您还可以使用笔记本实例编写代码,以便创建模型训练作业、将模型部署到 Amazon SageMaker 托管服务以及测试或验证模型。

训练

只需在控制台中单击一下或调用一次 API,即可开始训练模型。Amazon SageMaker 预先配置了最新版本的 TensorFlow 和 Apache MXNet,并且支持 CUDA9 库,可以让 NVIDIA GPU 实现最佳性能。此外,超参数优化功能可以通过智能调整模型参数的不同组合来自动调整模型,以快速达到最准确的预测。对于更大规模的需求,您可以扩展到数十个实例以支持更快的模型构建。

部署

训练结束后,您可以跨多个可用区在自动扩展的 EC2 实例上一键部署模型。投入生产后,Amazon SageMaker 能够代您管理计算基础设施,通过内置的 Amazon CloudWatch 监控和日志记录功能来执行运行状况检查、应用安全补丁并执行其他例行维护。

 

Amazon EC2 P3 实例和 AWS Deep Learning AMI

预先配置了开发环境,以快速开始构建深度学习应用程序

对于具有更多定制需求的开发人员而言,可使用 AWS Deep Learning AMI 来替代 Amazon SageMaker,前者为机器学习实践者和研究人员提供了基础设施和工具,以加快在云中任意规模的深度学习。您可以快速启动预先安装了常见深度学习框架(如 TensorFlow、PyTorch、Apache MXNet、Microsoft Cognitive Toolkit、Caffe、Caffe2、Theano、Torch、Chainer、Gluon 和 Keras)的 Amazon EC2 P3 实例来训练复杂的自定义 AI 模型、试验新算法或学习新技能和技巧。了解更多

Amazon EC2 P3 实例和高性能计算

解决大量计算问题,并利用 AWS 上 HPC 的功能获得全新见解

Amazon EC2 P3 实例是运行工程模拟、计算金融学、地震分析、分子建模、基因组学、渲染以及其他 GPU 计算工作负载的理想平台。高性能计算 (HPC) 让科学家和工程师能够解决这些复杂的计算密集型问题。HPC 应用程序通常需要高网络性能、快速存储、大量内存、超高计算能力或上述所有条件。通过 AWS,您可以在云中运行 HPC,并将并行任务的数量增加到大多数本地环境都无法支持的规模,从而提高研究速度并缩短获得成效的时间。AWS 可以提供针对具体应用程序优化过的解决方案,从而帮助客户降低成本,无需巨额资金投入。了解更多

Amazon EC2 P3 实例产品详细信息

实例大小 GPU – Tesla V100 GPU 对等 GPU 内存 (GB) vCPU 内存 (GB) 网络带宽 EBS 带宽 按需价格/小时* 一年期预留实例的有效小时* 三年期预留实例的有效小时*
p3.2xlarge 1 不适用 16 8 61 最高 10Gbps 1.5Gbps

3.06 USD

1.99 USD

1.23 USD

p3.8xlarge 4 NVLink 64 32 244 10Gbps 7Gbps

12.24 USD

7.96 USD

4.93 USD

p3.16xlarge 8 NVLink 128 64 488 25Gbps 14Gbps

24.48 USD

15.91 USD

9.87 USD

*所示价格适用于美国东部(弗吉尼亚北部)AWS 区域的 Linux/Unix。如需完整的定价详情,请参阅 Amazon EC2 定价页面。 

客户能够以按需实例、预留实例、Spot 实例和专用主机的形式购买 P3 实例。

按秒计费

您可以根据需要预置或取消预置资源,这种弹性是云计算的诸多优势之一。计费的最小单位为秒,我们让客户能够提高弹性、节省资金并优化资源分配,以便实现机器学习目标。

预留实例定价

与按需实例的定价相比,预留实例可为您提供大幅折扣(最高可达 75%)。此外,预留实例在分配给特定可用区后,可以提供容量预留,让您更相信自己能够按需启动实例。

Spot 定价

使用 Spot 实例时,您支付的是在实例运行期间生效的 Spot 价格。Spot 实例的价格由 Amazon EC2 设置,并根据 Spot 实例容量的长期供求趋势逐步调整。与按需定价相比,使用 Spot 实例最高可享受 90% 的折扣。

最广泛的全球可用性

1856-Updated Map Image-P3 Instances-transparentBG_1024x543

Amazon EC2 P3 实例已在 14 个 AWS 区域推出,因此客户可以灵活地在存储数据的任何地方训练和部署机器学习模型。EC2 P3 已在下列 AWS 区域推出:美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)、加拿大(中部)、欧洲(爱尔兰)、欧洲(法兰克福)、欧洲(伦敦)、亚太地区(东京)、亚太地区(首尔)、亚太地区(悉尼)、亚太地区(新加坡)、中国(北京)、中国(宁夏)和 GovCloud(美国)。

开始使用 Amazon EC2 P3 实例进行机器学习

要在几分钟内开始,请详细了解 Amazon SageMaker 或使用预装了 Caffe2 和 Mxnet 等常见深度学习框架的 AWS Deep Learning AMI。另外,您也可以使用预装了 GPU 驱动程序和 CUDA 工具包的 NVIDIA AMI

详细了解 Amazon SageMaker

单击此处以了解更多

详细了解 AWS 上的深度学习

单击此处以了解更多

详细了解高性能计算 (HPC)

单击此处以了解更多
准备好开始使用了吗?
注册
还有更多问题?
联系我们