亚马逊AWS官方博客

使用 EC2 Spot 实例和 TIBCO GridServer 在 AWS 上创建由 130 万个 vCPU 组成的网格

我的许多同事都非常幸运,能够有不错的时间坐下来听听客户的意见,尽最大努力了解我们怎样才能更好地满足客户的业务需求和技术需求。这一信息经过谨慎处理后,用于决定新服务和新功能计划。

AWS 的金融业(常常简称为 FSI)客户都在关注将于 2019 年至 2021 年期间生效的《交易账户根本审查》(Fundamental Review of Trading Book,FRTB) 规定。这些规定要求(包括但不限于)采用新的方法来计算“在险值”,金融机构必须在纽约交易时段结束后,东京交易时段开始前的四个小时内完成计算。目前,我们的客户报告这一关键任务型计算消耗的 vCPU 数量以 200,000 为量级,而为了满足 FRTB 规定的要求,消耗将增加到 40 万到 80 万个 vCPU。虽然对于运行这一扩展计算需要的算力量级和频率仍有一些争议,但总体方向十分明确。

建设大网格
为了确保我们最好准备,帮助 FSI 客户满足新规定的要求,我们与 TIBCO 合作在 AWS 云建立了网格并进行了概念验证。 计算的周期性,加上在四小时内完成计算所需的处理能力和存储量,导致特别需要建立一个按需提供海量高成本效益计算能力的环境。

我们的客户已经在本地使用 TIBCO GridServer,并且希望在云上使用它。该产品为运行企业级的网格而设计。它将以虚拟化的方式运行应用程序,接受资源请求,然后按需动态预置资源。该产品的云版支持 Amazon Linux 和兼容 PostgreSQL 的 Amazon Aurora

通过与 TIBCO 合作,我们确定要创建的网格规模需要远远超过 80 万个 vCPU 这一当前消耗上限,并增加 50% 的安全系数,总计达到 130 万个 vCPU(是最大本地网格规模的 5 倍)。根据这一目标,账户限制也上调为如下参数:

  • Spot 实例限制 – 120,000
  • EBS 卷限制 – 120,000
  • EBS 容量限制 – 2PB

如果您计划创建这种规模的网格,您还应尽早让当地热情的 AWS 解决方案架构师参与。他们将会审核您的计划,为您提供架构指南,帮助您计划运行。

运行网格
按下 Go(开始)按钮并启动网格,观察它竞价并取得 Spot 实例,每个实例都将在两分钟内完成启动和初始化并加入网格。测试工作负载使用来自 OpenGammaStrata 开放源分析和市场风险库,并在他们的协助下完成。

网格按照计划增加到 61,299 个 Spot 实例(从覆盖 3 代 EC2 硬件的 34 个实例类型提取 130 万个 vCPU),在运行期间仅 1,937 个实例被自动回收和更换,运行成本每小时 30,000 USD,每个 vCPU 平均每小时 0.078 USD。如果相同的实例采用按需实例的形式,则运行网格的成本将约为每小时 93,000 USD。

尽管网格的规模如此大,EC2 实例的价格在竞价期间并未移动。这归功于 AWS 云的总体规模以及我们在去年底启动的平稳价格调整模型

为便于您理解运算能力的大小,我们估计该网格将以较大的优势超过 2007 年 11 月全球超级计算机 500 强排名第一的计算机,以及 2008 年排名第二的计算机。即使今天,它也将取得第 360 名的成绩。

希望大家喜欢 AWS 的这一成功故事,让您对云计算可以实现的量级有一个概念!

Jeff