亚马逊AWS官方博客

宣布推出可为机器学习工作负载预留 GPU 容量的 Amazon EC2 ML 容量块



机器学习(ML)的最新进步让各种规模和各个行业的客户都有机会重新构想新产品,实现业务转型。但这些 ML 模型的训练、优化、实验和推理需要大幅增加 GPU 容量,超出了行业的供应水平,GPU 因而成为稀缺资源。如果由于所处研发阶段的不同,客户的容量需求存在波动,则将很难获取所需的 GPU 容量。

今天,我们宣布推出 Amazon Elastic Compute Cloud(Amazon EC2)ML 容量块。这是一种全新的 Amazon EC2 使用模式,客户可利用它轻松获取 GPU 实例来训练和部署机器学习和生成式人工智能模型,实现机器学习的进一步大众化。使用 EC2 容量块时,您可以预留数百个 GPU,这些 GPU 并置在专为高性能机器学习工作负载设计的 EC2 UltraClusters 集群中,并采用千万亿位级非阻塞网络所用的 Elastic Fabric Adapter(EFA)联网技术,从而提供 Amazon EC2 中可实现的超高速网络性能。

通过这种创新的 GPU 实例调度方法,您可以仅按需要的期限预留未来所需数量的实例。目前,在 AWS 美国东部(俄亥俄州)区域采用 NVIDIA H100 Tensor Core GPU 的 Amazon EC2 P5 实例已提供 EC2 容量块功能。借助 EC2 容量块,您只需点击几次即可预留 GPU 实例,并放心地计划机器学习开发。使用 EC2 容量块,任何人都能够轻松地以可预测的方式访问 EC2 P5 实例,从而享受 EC2 为机器学习训练提供的理想性能。

EC2 容量块预留的工作原理与酒店客房预订类似。预订酒店时,您可以指定需要入住客房的日期和天数,以及需要的床型(例如大床或特大床)。同样,进行 EC2 容量块预留时,您可以选择需要相关 GPU 实例的日期和期限以及预留的大小(实例数量)。到达预留开始日期时,您将能够访问预留的 EC2 容量块并启动 P5 实例。在 EC2 容量块有效期结束时,任何仍在运行的实例都将被终止。

当您需要容量保障来训练或优化机器学习模型、运行实验或为未来机器学习应用程序需求的激增进行规划时,都可以使用 EC2 容量块。而对于需要计算容量保障的所有其他类型的工作负载(例如业务关键型应用程序、监管要求或灾难恢复等),您可以继续使用按需容量预留

Amazon EC2 ML 容量块入门
要预留容量块,请在美国东部(俄亥俄州)区域的 Amazon EC2 控制台上选择容量预留。这时您可以看到两个容量预留选项。选择购买 ML 容量块,然后选择开始使用以开始查找 EC2 容量块。

选择总容量并指定需要 EC2 容量块的期限。您可以预留以下大小的 EC2 容量块:1、2、4、8、16、32 或 64 个 p5.48xlarge 实例。您可以预留 EC2 容量块的总天数为 1 到 14 天,以 1 天为单位递增。EC2 容量块最早可以提前 8 周购买。

EC2 容量块的价格是动态变化的,具体取决于您购买 EC2 容量块时的总可用供给和需求情况。您可以调整预留规格中的大小、期限或日期范围,以搜索其他 EC2 容量块选项。当您选择查找容量块时,AWS 将按您指定的日期范围返回符合您指定规格的最低价格可用选项。这时系统将向您显示 EC2 容量块的价格。

检查 EC2 容量块的详细信息、标签和总价格信息后,选择购买。EC2 容量块的总价格将会提前收取,并且价格在购买后不会发生变化。这笔款项将在您购买 EC2 容量块后 12 小时内计入您的账户。

所有 EC2 容量块预留均从世界协调时间(UTC)上午 11:30 开始计算。EC2 容量块在购买后无法修改或取消。

您还可以使用 AWS 命令行界面(AWS CLI)AWS SDK 来购买 EC2 容量块。您可以使用 describe-capacity-block-offerings API 提供您的集群需求,即可发现可供购买的 EC2 容量块。

$ aws ec2 describe-capacity-block-offerings \
          --instance-type p5.48xlarge \
          --instance-count 4 \
          --start-date-range 2023-10-30T00:00:00Z \
          --end-date-range 2023-11-01T00:00:00Z \
          –-capacity-duration 48

找到具有 CapacityBlockOfferingId 和前述命令中容量信息的可用 EC2 容量块后,您可以使用 purchase-capacity-block-reservation API 进行购买。

$ aws ec2 purchase-capacity-block-reservation \
          --capacity-block-offering-id cbr-0123456789abcdefg \
          –-instance-platform Linux/UNIX

有关新 EC2 容量块 API 的更多信息,请参阅 Amazon EC2 API 文档

您的 EC2 容量块现已成功计划。达到计划的开始日期时,您的 EC2 容量块将变为活动状态。要在开始日期使用活动的 EC2 容量块,请选择您的 EC2 容量块的容量预留 ID。您可以在容量详细信息部分查看预留的实例容量详情,其中显示了当前的容量使用情况。

要在您的活动 EC2 容量区块中启动实例,请选择启动实例,然后按照启动 EC2 实例和运行机器学习工作负载的正常流程操作即可。

高级详细信息部分中,选择将容量块作为购买选项,然后选择要作为目标的 EC2 容量块的容量预留 ID。

随着您的 EC2 容量块结束时间临近,Amazon EC2 将通过 Amazon EventBridge 发送一个事件,告知您的预留即将结束,以便您可以检查工作负载。在您的预留结束前 30 分钟,在 EC2 容量块中运行的所有实例都将进入“即将关闭”状态。您为 EC2 容量块支付的费用不包括此时段。当您的 EC2 容量块有效期结束时,所有仍在运行的实例都将被终止。

现已开放
Amazon EC2 容量块现已可在 AWS 美国东部(俄亥俄州)区域的 p5.48xlarge 实例上使用。在预留 EC2 容量块之前,您可以先查看其价格,并且 EC2 容量块的总价是在购买时预先收取的。有关更多信息,请参阅 EC2 容量块定价页面。

要了解更多信息,请参阅 EC2 容量块文档;如有反馈,请发送至 AWS re:Post for EC2,或与您通常使用的 AWS Support 联系人联系。

Channy