主要优势
65%
后端工作负载作业运行时间在竞价型实例上的占比40%
运行后端 EDA 工作负载的成本降低比例概览
作为半导体和软件设计行业的先驱者,Arm 公司希望优化他们在 Amazon Web Services(AWS)上运行的电子设计自动化(EDA)工作负载。在 AWS 合作伙伴 Exostellar 的支持下,Arm 显著降低了成本、提高了效率,并增强了有状态、长期运行的 EDA 工作负载的可持续性。
关于 Arm
Arm 致力于为互联的全球人口提供高性能、高能效的计算解决方案。为了满足全球的需求,Arm 为众多技术公司提供先进的解决方案,以便释放人工智能的力量。
机会 | Arm 使用 Amazon EC2 竞价型实例,以更低的成本处理长期运行的 EDA 工作负载
Arm 成立于 1990 年,致力于为 CPU、GPU 和神经处理单元设计、开发和授权使用知识产权解决方案。Arm 的工程师们使用先进的 EDA 工具来设计、验证和分析技术,以便生产高性能、低成本、高能效的产品。Arm 一直在想方设法优化上述流程,这需要投入大量的计算资源和存储资源。
Arm 于 2016 年开始在 AWS 上使用 Amazon Elastic Cloud Compute(Amazon EC2)等服务来运行他们的前端验证工作负载。Amazon EC2 提供了安全、可调整大小的计算容量,几乎适用于任何工作负载。Arm 还使用了 AWS Batch,这项完全托管式批处理计算服务可以规划、安排和运行容器化批处理机器学习(ML)、模拟和分析工作负载。大多数公司通常都在本地运行 EDA 工作负载,或者在云端使用集群调度器来运行 EDA 工作负载,但 Arm 使用 AWS 将前端验证工作负载扩展到 50 万个以上的并行虚拟 CPU。
这些作业的运行时间通常很短,因此 Arm 完全在 Amazon EC2 竞价型实例上运行这些作业,这样,各个组织就可以利用 AWS 上未使用的 Amazon EC2 容量,与按需定价相比,可享受高达 90% 的折扣。这种方法符合 AWS Well-Architected 的可持续发展最佳实践。
由于以创新性的方式使用云服务来处理 EDA 工作负载,Arm 在 2022 年荣获了 HPCwire 颁发的“云端高性能计算最佳用途”奖。Arm 之所以选择 AWS,是因为它提供了全面的服务和支持。“毫无疑问,无论是对于一般用途还是 EDA 工作负载,充分利用 AWS 技术的广度和深度都能找到正确的解决方案,”Arm 高级首席工程师 Zhifeng Yun 表示。“AWS 听取了我们的要求,并迅速将各项功能推送到他们的服务中,这样,我们就可以在 AWS 上成功运行大规模的工作负载。”
Arm 的后端 EDA 工作负载提出了另一个挑战,因为这些工作负载既是计算密集型的,也是有状态的,而且有些作业的运行时间超过 1 周。这些作业一旦中断,Arm 就需要重新运行它们,这样既代价不菲又非常耗时,会导致计划外延迟。Arm 最初依赖 Amazon EC2 按需型实例,使用这种实例时,各个组织按小时或秒为计算容量付费,无需签订长期合同,因为延长的运行时间会导致使用可在短时间内回收的单个竞价型实例变得不切实际。
不过,随着计算需求的持续增长,Arm 正在寻找更加经济高效的解决方案。“我们的主要目标是降低运行后端工作负载的成本,同时仍然使用云服务来实现业务所需的灵活性,”Yun 说道。
解决方案 | 将在 AWS 上运行后端 EDA 工作负载的成本降低多达 40%
2024 年,Arm 决定实施 Exstellar 的基础设施优化器解决方案,该解决方案可以在竞价型实例与按需型实例之间无缝迁移有状态的工作负载,从而在确保工作负载持续运行的同时优化成本。“使用基础设施优化器,系统将获得授权以运行作业,并在实例之间迁移,以便在高效地使用竞价型实例的同时保持完整性,”Yun 表示。
在 3 个月内,Arm 就成功在生产环境中运行该解决方案。使用基础设施优化器,工程师们向集群提交作业,基础设施优化器会启动一个控制器节点,此节点会持续分析竞价型实例市场,并确定要使用的正确实例类型。“我们与 Exstellar 团队开展的合作非常顺利,”Yun 说道。“Exostellar 了解该解决方案,并迅速为我们的使用案例提供了支持。”
使用基础设施优化器,Arm 实现了自己的目标,既降低了成本,也未对质量产生丝毫影响。Arm 已经在使用节省计划,该计划采用灵活的定价模式,可以为各个组织节省高达 72% 的费用,从而在使用按需型实例时保持较低的成本。该公司可以使用竞价型实例来处理后端 EDA 工作负载(约占作业运行时间的 65%),从而进一步降低成本。“我们可以运行以前使用按需型实例运行的那些作业,”Yun 表示。“我们通过基础设施优化器来使用竞价型实例,将成本降低了大约 40%。”
Arm 还可以在现有的调度器环境中实施基础设施优化器,而无需更改工作负载或作业提交流程。基础设施优化器为每个作业预置了专用的 worker 节点,以使作业能够更高效地运行,而不会出现资源争用情况,在共享节点部署中有时会发生这种情况。
成果 | 借助机器学习和新技术,以创新性的方式使用 AWS
Arm 计划继续增强他们的解决方案,并始终保持领先的创新能力。该公司计划整合机器学习功能,以便始终以作业为重点,并减少冗余作业的数量。Arm 还与 AWS 和 Exstellar 展开了合作,以便改进基础设施优化器,让它能够使用 AWS Graviton 处理器运行,这些处理器是 AWS 开发的定制服务器处理器,旨在为 Amazon EC2 上运行的云工作负载提供出色的性价比。与同类 EC2 实例相比,基于 AWS Graviton 的 Amazon EC2 实例在实现相同性能的情况下最多可节省 60% 的能源。随着 Arm 业务规模的扩大,这些效率叠加并产生了巨大的影响,进一步推动了可持续发展。
“Arm 的云之旅表明,EDA 工作负载完全可以在 AWS 上运行,”Yun 说道。“我们的最终目标是与 AWS 合作,向 EDA 的垂直市场展示完全在 AWS 上运行的一站式解决方案。”
Arm 的云之旅表明,EDA 工作负载完全可以在 AWS 上运行。
Zhifeng Yun
Arm 高级首席工程师使用的 AWS 服务
开始使用
无论行业无论规模,每天都有各种组织在使用 AWS 实现自身业务转型、实现企业愿景。欢迎您联系我们的专家,立即踏上您的 AWS 之旅。
找到今天要查找的内容了吗?
请提供您的意见,以便我们改进网页内容的质量。