跳至主要内容

Amazon EC2 容量块

适用于 ML 的 Amazon EC2 容量块

在 Amazon EC2 UltraClusters 中为运行机器学习工作负载预留加速计算实例

为什么选择 EC2 Capacity Blocks for ML?

借助适用于 ML 的亚马逊弹性计算云 (Amazon EC2) 容量区块,您可以轻松地为未来的开始日期预留加速计算实例。容量区块支持亚马逊 EC2 P6e-GB200 P6-B200 、P 5en、P 5e 、P 5 和 p4d 实例,分别由最新的 NVIDIA Blackwell GP U、NVIDIA H200 Tensor Core GP U、NVIDIA H100 Tensor Core GPU 和 NVIDIA A100 Tensor Core GPU 以及由 AWS Trainium 提供支持的 Trn2 和 Trn1 实例加速。 EC2 容量块托管在专为高性能机器学习 (ML) 工作负载设计的亚马逊 EC2 UltraClusters 中。在大小为 1 到 64 个实例(512 个 GPU 或 1024 个 Trainium 芯片)的集群中,您可以将加速计算实例预留最多六个月,使您能够灵活地运行多种机器学习工作负载。EC2 容量块最多可以提前八周预留。

优势

通过确保加速计算实例的未来可用容量,自信地规划机器学习开发。

通过 Amazon EC2 UltraCluster 中的主机托管获得低延迟、高吞吐量的网络连接,用于分布式训练。

以可预测的方式访问用于机器学习的 Amazon EC2 中具有最高性能的加速计算实例。

使用案例

不间断地访问您为完成机器学习模型训练和微调而预留的加速计算实例。

Amazon SageMaker HyperPod 的灵活训练计划由容量块提供支持,可根据您的训练要求,自动在多个计算容量块上预留和运行训练作业,从而帮助您满足模型训练时间表和预算要求。

进行实验并构建在短时间内需要加速计算实例的原型。

通过预留适量的容量来为客户提供服务,满足您的增长需求。

NVIDIA

“随着全球企业采用生成式人工智能来重塑业务,对加速计算的需求呈指数级增长。借助 AWS 全新的 EC2 Capacity Blocks for ML,全球的人工智能公司现在不仅可以一次租用一台服务器,而且可以在 AWS 上独有的专用规模租用 H100,这使他们能够快速且经济高效地训练大型语言模型,并在需要时在云端进行推理。“

伊恩·巴克,NVIDIA 高性能计算副总裁

Missing alt text value

Arcee

“Arcee提供了一个人工智能平台,可以开发和改进我们所创造的SLM——小型、专业、安全和可扩展的语言模型。Amazon EC2 Capacity Blocks for ML 是我们在 AWS 上训练 SLM 的 ML 计算环境的重要组成部分,因为它们让我们能在需要时可靠地访问 GPU 容量。这进而意味着我们的内部团队和客户都可以从灵活性中受益。知道我们可以在几天之内获得一组 GPU,而无需长期承诺,这对我们来说已经改变了游戏规则。“

Mark McQuade,Arcee 首席执行官兼联合创始人

Missing alt text value

扩大合作伙伴规模

“我们已经与几位创始人合作,他们利用深度学习和大型语言模型将突破性的创新推向市场。我们认为,可预测和及时地获得 GPU 计算容量是让创始人不仅能够快速将想法变为现实,而且能够继续迭代他们的愿景并为客户提供不断增长的价值的基础。在当前供应受限的环境中,通过 EC2 Capacity Block 提供多达 512 个 NVIDIA H100 GPU 的可用性改变了游戏规则,因为我们相信它将在初创企业需要时为其提供所需的 GPU 计算能力,而无需做出长期资本承诺。我们期待利用 GPU 容量块及其行业领先的机器学习和生成式 AI 服务产品组合,支持创始人在 AWS 上进行构建。“

Mark LaRosa,Amplify Partners 运营合伙人

Missing alt text value

Canva

“如今,Canva支持超过1.5亿月活跃用户创建可在任何地方发布的引人入胜的视觉资产。我们一直在使用 EC2 P4de 实例训练多模态模型,这些模型为新的生成式人工智能工具提供支持,使我们的用户可以自由、快速地尝试各种创意。当我们想要训练更大的模型时,我们需要能够在训练运行期间以可预测的方式扩展数百个 GPU。很高兴看到 AWS 推出了支持 P5 实例的 EC2 Capacity Block。现在,我们可以在低延迟的EC2 UltraClusters中获得对多达512个NVIDIA H100 GPU的可预测访问权限,以训练比以前更大的模型。'

Greg Roodt,Canva 数据平台主管

Missing alt text value

Dashtoon

“Dashtoon 将尖端的人工智能与创造力融为一体,将讲故事的人变成艺术家,无论他们的艺术技能或技术知识如何,他们都可以创作数字漫画,从而打破了插图内容创作中的传统障碍。我们有超过 8 万的月活跃用户 (MAU) 使用我们的应用程序来进行漫画消费,而我们的创作者每天在 Dashtoon Studio 上生成超过 10 万张图片。我们从一开始就一直在使用 AWS,并使用 Amazon EC2 P5 实例来训练和微调多模态模型,包括 Stable Diffusion XL、GroundingDino 和 Segment Anything。与使用由 NVIDIA A100 GPU 提供支持的同等 P4d 实例相比,使用由 NVIDIA H100 GPU 提供支持的 P5 实例的性能提高了 3 倍。我们的训练数据集大小不一,当我们希望扩大模型训练规模时,Amazon EC2 Capacity Blocks for ML 使我们能够以可预测的低交付周期(最快次日)灵活地满足 GPU 需求,帮助我们缩短为用户发布新功能的时间。我们很高兴能继续利用 EC2 容量区块来加速我们的创新。“

Soumyadeep Mukherjee,Dashtoon 联合创始人兼首席技术官

Missing alt text value

Leonardo.Ai

“我们的 Leonardo 团队利用生成式人工智能,使创意专业人士和爱好者能够制作出具有无与伦比的质量、速度和风格一致性的视觉资产。我们以一套经过微调的人工智能模型和强大的工具为基础,可在生成之前和之后提供细粒度控制。我们不仅利用各种 AWS 服务来构建和训练我们的模型,还利用这些服务来托管这些模型,以支持数百万月活跃客户的使用。我们对 EC2 Capacity Blocks for ML 的推出感到非常高兴。它使我们能够弹性地访问 GPU 容量进行训练和实验,同时保留了切换到可能更好地满足我们计算要求的不同 EC2 实例的选项。“

Peter Runham,Leonardo.Ai 首席技术官

Missing alt text value

octoAI

“在OctoAI,我们使应用程序开发者能够轻松运行、调整和扩展生成式人工智能,优化模型执行并使用自动化来扩展其服务并减轻工程负担。我们在短时间内扩展 GPU 容量的能力至关重要,尤其是当我们的合作对象是寻求在其产品发布过程中快速将其机器学习应用程序从零用户扩展到数百万用户的客户时。适用于 ML 的 EC2 Capacity block 使我们能够根据客户的计划扩展来预测地启动不同大小的 GPU 集群,同时与长期容量承诺或在本地部署相比,可以节省潜在的成本。“

Luis Ceze,OctoAI 首席执行官

Missing alt text value

Snorkel

“Snorkel的人工智能数据开发平台可帮助企业快速创建和使用人工智能。这越来越多地涉及将计算密集型 LLM 中的信息提炼成较小的专业模型,这需要在开发过程中进行短期的突发计算。与获取 GPU 容量的现有方案相比,EC2 Capacity Blocks for ML 有可能带来重大改进。有保障的短期 GPU 容量和 EC2 UltraClusters 的高联网性能是当今和未来几年企业需要支持的人工智能开发工作流程的关键推动力。“

Braden Hancock,Snorkel 联合创始人兼技术主管

Missing alt text value