Amazon EC2 P3 实例

借助功能强大的 GPU 加快机器学习和高性能计算应用程序

为什么选择 Amazon EC2 P3 实例?

Amazon EC2 P3 实例可在云中提供高性能计算,可支持高达 8 个 NVIDIA® V100 Tensor Core GPU,并可为机器学习和 HPC 应用提供高达 100Gbps 的网络吞吐量。这些实例可以实现最高 1 petaflop 的混合精度性能,显著加快机器学习和高性能计算应用程序的速度。事实证明,Amazon EC2 P3 实例可以将机器学习训练时间从几天缩短为几分钟,并将用于高性能计算完成的模拟数量增加 3-4 倍。

Amazon EC2 P3dn.24xlarge 实例的网络带宽高达 P3.16xlarge 实例的 4 倍,其是 P3 系列的最新成员,针对分布式机器学习和 HPC 应用进行了优化。这些实例提供高达 100 Gbps 的网络吞吐量,96 个自定义英特尔至强可扩展处理器 (Skylake) vCPU,8 个 NVIDIA® V100 Tensor Core GPU(每个具有 32 GiB 内存)以及 1.8 TB 基于 NVMe 的本地 SSD 存储。P3dn.24xlarge 实例还支持 Elastic Fabric Adapter(EFA),该服务可以加快使用 NVIDIA Collective Communications Library (NCCL) 的分布式机器学习应用程序。EFA 可以扩展到数千个 GPU,从而显著提高深度学习训练模型的吞吐量和可扩展性,导致更快地产生结果。

Amazon EC2 P3 实例的概览

优势

对于需要加快机器学习应用程序速度的数据科学家、研究人员和开发人员来说,Amazon EC2 P3 实例是机器学习训练云中最快的实例。Amazon EC2 P3 实例配备多达 8 个最新一代的 NVIDIA V100 Tensor Core GPU,可以实现最高 1 petaflop 的混合精度性能,显著加快机器学习工作负载的处理速度。更快的模型训练使数据科学家和机器学习工程师能够更快地进行迭代、训练更多模型并提高准确性。

云中最强大的 GPU 实例之一与灵活的定价计划相结合,为机器学习训练提供了极具成本效益的解决方案。与 Amazon EC2 实例一样,P3 实例可用作按需实例、预留实例或 Spot 实例。Spot 实例利用了未使用的 EC2 实例容量,可以大大降低 Amazon EC2 的成本,和按需实例价格相比有高达70%的折扣。

与本地系统不同,在 Amazon EC2 P3 实例上运行高性能计算几乎可以实现无限的容量来扩展您的基础设施,并且让您可以按照工作负载需求轻松灵活地更改资源。您可以配置资源以满足应用程序的需求,并在几分钟内启动 HPC 集群,并且只需按实际使用量付费。

使用预打包的 Docker 镜像在几分钟内部署深度学习环境。该镜像包含要求的深度学习框架库(目前是 TensorFlow 和 Apache MXNet)和工具,并且经过充分测试。您可以在这些镜像之上轻松添加自己的库和工具,以便获得针对监控、合规性和数据处理的更高层次的控制能力。此外,Amazon EC2 P3 实例还可以与 Amazon SageMaker 无缝协作,提供一个功能强大、直观而完整的机器学习平台。Amazon SageMaker 是一种完全托管的机器学习平台,让您可以快速轻松地构建、训练和部署机器学习模型。此外,Amazon EC2 P3 实例还可以与预装了各种常见深度学习框架的 AWS Deep Learning Amazon 系统映像 (AMI) 集成。这让开始机器学习训练和推理变得更快、更容易。

客户评价

以下是客户和合作伙伴如何利用 Amazon EC2 P3 实例实现业务目标的一些示例。

  • Airbnb

    Airbnb 使用机器学习来优化搜索建议,并改善面向房主的动态定价指导,从而提高预订转化量。利用 Amazon EC2 P3 实例,Airbnb 能够更快地运行训练工作负载、进行更多迭代、构建更好的机器学习模型并降低成本。

  • Celgene

    Celgene 是一家跨国生物科技公司,专注于开发与患者治疗匹配的靶向疗法。该公司在 Amazon EC2 P3 实例上运行其 HPC 工作负载,以进行下一代基因组测序和化学模拟。利用此计算能力,Celgene 可以训练深度学习模型,以区分恶性肿瘤细胞和良性肿瘤细胞。使用 P3 实例前,需要两个月才能运行大规模计算作业,现在仅需要四小时。AWS 技术使 Celgene 能够加快癌症和炎症药物治疗的开发。

  • Hyperconnect

     

    Hyperconnect 专注于将基于机器学习的新技术应用到图像和视频处理,它是首家为移动平台开发 webRTC 的公司。

    阅读完整案例研究

    Hyperconnect 在其视频通信应用程序中使用基于 AI 的图像分类技术,以便对用户当前所在的环境进行识别。我们从本地工作站迁移到采用 Horovod 的多 Amazon EC2 P3 实例,从而将我们的 ML 模型训练时间从超过一星期缩短至不到一天。通过采用 PyTorch 作为我们的机器学习框架,我们可以快速开发模型,并且利用开放源社区中可用的库。

    Sungjoo Ha,Hyperconnect 的 AI 实验室总监
  • NerdWallet

    NerdWallet 是一家个人财务管理初创公司,它可以提供工具和建议,使客户能够更轻松地偿还债务,选择最出色的理财产品与服务,以及达成重大的人生目标,例如,购房和为退休储蓄资金等。该公司严重依赖数据科学和机器学习 (ML),将客户与个性化理财产品关联在一起。

    阅读完整的案例研究

    使用 Amazon SageMaker 和搭载 NVIDIA V100 Tensor Core GPU 的 Amazon EC2 P3 实例不仅提升了 NerdWallet 的灵活性和性能,而且还缩短了数据科学家训练 ML 模型所需的时间。我们过去需要数个月时间启动模型并对其进行迭代;现在,只要几天就够了。

    Ryan Kirkman,NerdWallet 的高级工程经理
  • PathWise Solutions Group

    作为质量系统解决方案的领导者,Aon 的 PathWise 是一款基于云的 SaaS 应用程序套件,该套件专门为各种客户进行企业风险管理建模,为其提供快速、可靠、安全的按需服务。

    阅读案例研究

    Aon 的 PathWise Solutions Group 所提供的风险管理解决方案让我们的客户可以利用最新的技术快速克服当今的主要保险挑战,例如,管理与测试对冲策略、监管和经济预测,以及编列预算等。从 2011 年至今,PathWise 一直在 AWS 的生产环境中运行,而现在,他们运用 Amazon EC2 P- 系列实例,在不断进步和发展的市场中为世界各地的客户加快计算速度,从而克服这些挑战。

    Van Beach,Aon Pathwise 战略与技术集团生命解决方案全球负责人
  • Pinterest

    Pinterest 在 AWS 上的 P3 实例中使用混合精确训练加快深度学习模型的训练速度,同时使用这些实例实现模型的更快推理,从而为用户提供快速而独特的发现体验。Pinterest 使用通过 PyTorch 在 AWS 上构建的 PinSage。这款 AI 模型基于特定主题将图像组合在一起。通过平台上的 30 亿幅图像,有 180 亿种不同方式将图像关联在一起。这些关联有助于 Pinterest 将主题、风格置于上下文中,并产生更多个性化用户体验。

  • Salesforce

     

    Salesforce 使用机器学习为 Einstein Vision 提供支持,让开发人员能够将图像识别功能用于视觉搜索、品牌检测和产品识别等场景。Amazon EC2 P3 实例让开发人员能够更快地训练深度学习模型,从而快速实现机器学习目标。

  • Schrodinger

    Schrodinger 使用高性能计算 (HPC) 来开发各种预测模型,以便扩大发现和优化的范围,让自己的客户能够更快速地将救生药物推向市场。利用 Amazon EC2 P3 实例,Schrodinger 在一天内执行的模拟次数达到了 P2 实例的四倍。 

  • Subtle Medical

    Subtle Medical 是一家致力于通过创新的深度学习解决方案改善医疗成像效率与优化患者体验的医疗技术公司。他们的团队由知名的成像科学家、放射科医生,以及来自 Stanford、MIT、MD Anderson 的 AI 专家等专业人员组成。

    阅读完整案例研究

    医院和医学影像中心都希望采用此解决方案,避免在 IT 部门获得 GPU 专业技术,构建并维护成本高昂的数据中心或迷你云的过程中给他们造成额外的负担。他们想用最少的精力和投资来进行成功部署……AWS 使这一切成为可能。

    Enhao Gong,Subtle Medical 的创办者兼 CEO
  • Western Digital

    Western Digital 使用 HPC 针对材料学、热流、磁学和数据传输运行成千上万次模拟,以便提高硬盘和存储解决方案的性能与质量。早期测试表明,与以前部署的解决方案相比,P3 实例让工程团队运行模拟的速度至少加快了三倍。 

Amazon EC2 P3 实例和 Amazon SageMaker

Amazon SageMaker 可以轻松构建机器学习模型,并为训练做好准备。它提供了快速连接到训练数据所需的一切,并为您的应用选择和优化最佳算法和框架。Amazon SageMaker 包含托管的 Jupyter 笔记本,您可以轻松浏览和可视化在 Amazon S3 中存储的训练数据。  您还可以使用笔记本实例编写代码,以便创建模型训练作业、将模型部署到 Amazon SageMaker 托管服务以及测试或验证模型。

只需在控制台中单击一下或调用一次 API,即可开始训练模型。Amazon SageMaker 预先配置了最新版本的 TensorFlow 和 Apache MXNet,并且支持 CUDA9 库,可以让 NVIDIA GPU 实现最佳性能。此外,超参数优化功能可以通过智能调整模型参数的不同组合来自动调整模型,以快速达到最准确的预测。对于更大规模的需求,您可以扩展到数十个实例以支持更快的模型构建。

训练结束后,您可以跨多个可用区在自动扩展的 Amazon EC2 实例上一键部署模型。投入生产后,Amazon SageMaker 能够代您管理计算基础设施,通过内置的 Amazon CloudWatch 监控和日志记录功能来执行运行状况检查、应用安全补丁并执行其他例行维护。

Amazon EC2 P3 实例和 AWS Deep Learning AMI

预先配置了开发环境,以快速开始构建深度学习应用程序

对于具有更多定制需求的开发人员而言,可使用 AWS Deep Learning AMI 来替代 Amazon SageMaker,前者为机器学习实践者和研究人员提供了基础设施和工具,以加快在云中任意规模的深度学习。您可以快速启动预先安装了常见深度学习框架(如 TensorFlow、PyTorch、Apache MXNet、Microsoft Cognitive Toolkit、Caffe、Caffe2、Theano、Torch、Chainer、Gluon 和 Keras)的 Amazon EC2 P3 实例来训练复杂的自定义 AI 模型、试验新算法或学习新技能和技巧。 了解更多

Amazon EC2 P3 实例和高性能计算

解决大量计算问题,并利用 AWS 上 HPC 的功能获得全新见解

Amazon EC2 P3 实例是运行工程模拟、计算金融学、地震分析、分子建模、基因组学、渲染以及其他 GPU 计算工作负载的理想平台。高性能计算 (HPC) 让科学家和工程师能够解决这些复杂的计算密集型问题。HPC 应用程序通常需要高网络性能、快速存储、大量内存、超高计算能力或上述所有条件。通过 AWS,您可以在云中运行 HPC,并将并行任务的数量增加到大多数本地环境都无法支持的规模,从而提高研究速度并缩短获得成效的时间。例如,P3dn.24xlarge 实例支持 Elastic Fabric Adapter (EFA),该服务启用使用消息传递接口 (MPI) 的 HPC 应用程序扩展到数千个 GPU。AWS 可以提供针对具体应用程序优化过的解决方案,从而帮助客户降低成本,无需巨额资金投入。 了解详情

支持 NVIDIA RTX 虚拟工作站

NVIDIA RTX 虚拟工作站 AMI 使用在 AWS 云中运行的强大 P3 实例(配备 NVIDIA Volta V100 GPU)实现了高图形性能。这些 AMI 预先安装了最新的 NVIDIA GPU 图形软件和最新的 RTX 驱动程序,并通过了 NVIDIA ISV 认证,支持高达 4K 桌面分辨率。配备 NVIDIA V100 GPU 的 P3 实例与 RTX vWS 相结合,可在云中提供高性能工作站,该工作站具有高达 32 GiB 的 GPU 内存、快速射线跟踪和支持 AI 的渲染功能。

全新 AMI 可在 AWS Marketplace 上找到,支持 Windows Server 2016Windows Server 2019

Amazon EC2 P3dn.24xlarge 实例

Amazon EC2 P3dn.24xlarge 实例是目前运行最快、性能最强、规模最大的 P3 实例,可提供高达 100 Gbps 的网络吞吐量,配备 8 个 NVIDIA® V100 Tensor Core GPU(每个配有 32 GiB 内存)、96 个自定义英特尔至强可扩展处理器 (Skylake) vCPU 和 1.8 TB 基于 NVMe 的本地 SSD 存储。利用更快的网络速度、全新处理器、两倍的 GPU 内存和更多 vCPU,开发人员可以大大缩短训练机器学习模型的时间,或者通过跨多个实例(例如 16、32 或 64 个实例)扩展作业来运行更多 HPC 模拟。机器学习模型需要大量的数据用于训练,除了增加实例间传递数据的吞吐量外,还需要 P3dn.24xlarge 实例的额外网络吞吐量,P3dn.24xlarge 实例可以通过连接至 Amazon S3 或 Amazon EFS 等共享文件系统解决方案来加速对大量训练数据的访问。

凭借 100 Gbps 的网络吞吐量,开发人员可以有效地将大量的 P3dn.24xlarge 实例用于分布式训练,显著缩短训练模型的时间。具有 AVX-512 指令的 AWS 定制英特尔 Skylake 处理器的 96vCPU 以 2.5GHz 的速度运行,有助于优化数据的预处理。另外,P3dn.24xlarge 实例使用 AWS Nitro System,该系统结合了专用硬件和轻量虚拟机监控程序,几乎可将主机硬件的所有计算和内存资源都提供给您的实例。P3dn.24xlarge 实例还支持 Elastic Fabric Adapter,使得使用 NVIDIA Collective Communications Library (NCCL) 的 ML 应用程序扩展到数千个 GPU。

使用最新版 Elastic Network Adapter 的增强网络,聚合网络带宽最高可达 100Gbps,不仅可以跨多个 P3dn.24xlarge 实例共享数据,还可以通过 Amazon S3 或 Amazon EFS 等共享文件系统解决方案进行高吞吐量数据访问。高吞吐量数据访问对于优化 GPU 利用率和从计算实例提供最大性能至关重要。

P3dn.24xlarge 实例提供了具有 32GiB 内存的 NVIDIA V100 Tensor Core GPU,使训练更高级更大型的机器学习模型具有灵活性,并且可以处理更大批量的数据,如用于图像分类和对象检测系统的 4k 图像。

Amazon EC2 P3 实例产品详细信息

实例大小 GPU – Tesla V100 GPU 对等 GPU 内存 (GB) vCPU 内存 (GB) 网络带宽 EBS 带宽 按需价格/小时* 一年期预留实例的有效小时* 三年期预留实例的有效小时*
p3.2xlarge 1 不适用 16 8 61 最高 10Gbps 1.5Gbps 3.06 USD 1.99 USD 1.05 USD
p3.8xlarge 4
NVLink 64 32 244 10Gbps 7Gbps 12.24 USD 7.96 USD 4.19 USD
p3.16xlarge 8 NVLink 128 64 488 25Gbps 14Gbps 24.48 USD 15.91 USD 8.39 USD
p3dn.24xlarge 8 NVLink 256 96 768 100Gbps 19Gbps 31.218 USD 18.30 USD 9.64 USD

* – 所示价格适用于美国东部(弗吉尼亚北部)AWS 区域的 Linux/Unix,价格已四舍五入至最接近的美分。如需了解完整的定价详情,请参阅 Amazon EC2 定价页面。

客户能够以按需实例、预留实例、Spot 实例和专用主机的形式购买 P3 实例。

按秒计费

您可以根据需要预置或取消预置资源,这种弹性是云计算的诸多优势之一。计费的最小单位为秒,我们让客户能够提高弹性、节省资金并优化资源分配,以便实现机器学习目标。

预留实例定价

相比较按需实例的定价,预留实例为您提供大幅折扣(高达 75%)。此外,预留实例在分配给特定可用区后,可以提供容量预留,让您更相信自己能够按需启动实例。

Spot 定价

使用 Spot 实例时,您支付的是在实例运行期间生效的 Spot 价格。Spot 实例的价格由 Amazon EC2 设置,并根据 Spot 实例容量的长期供求趋势逐步调整。与按需定价相比,使用 Spot 实例最高可享受 90% 的折扣。

最广泛的全球可用性

P3 实例全球可用性

Amazon EC2 P3.2xlarge,P3.8xlarge 和 P3.16xlarge 实例已在 14 个 AWS 区域推出,因此客户可以灵活地在存储数据的任何地方训练和部署机器学习模型。P3 已在下列 AWS 区域推出:美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)、加拿大(中部)、欧洲(爱尔兰)、欧洲(法兰克福)、欧洲(伦敦)、亚太地区(东京)、亚太地区(首尔)、亚太地区(悉尼)、亚太地区(新加坡)、中国(北京)、中国(宁夏)和 GovCloud(美国西部)。

P3dn.24xlarge 实例在亚太地区(东京)、欧洲地区(爱尔兰)、美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)、GovCloud(美国西部)和 GovCloud(美国东部)AWS 区域可用。

开始使用 Amazon EC2 P3 实例进行机器学习

要在几分钟内开始,请详细了解 Amazon SageMaker 或使用预装了 Caffe2 和 Mxnet 等常见深度学习框架的 AWS Deep Learning AMI。另外,您也可以使用预装了 GPU 驱动程序和 CUDA 工具包的 NVIDIA AMI