Amazon Lab126 创建了 HPC 解决方案,旨在帮助团队提升开发和创新的速度
2020 年
当今最流行的一些消费技术设备在 Amazon Lab126 诞生。这家总部位于加利福尼亚州的研发机构已经开发出 Amazon Kindle 电子书阅读器和 Amazon Echo 智能扬声器等知名设备。
Amazon Lab126 设备团队使用高性能计算 (HPC) 能力和机器学习能力来扩展设计环境,以加速产品开发,提高效率并缩短上市时间。然而,其老化、昂贵的本地部署 HPC 环境无法提供团队所需的可扩展性和易用性。“我们长时间运行大型模拟,例如观察消费类设备在特定条件下的机械和热响应,”Amazon Lab126 构架团队高级经理 Shankar Ganapathysubramanian 说,“我们需要更多的计算容量来支持这些工作负载。” Amazon Lab126 无线工程高级经理 Amit Gaikwad 补充道:“我们正在设计和构建更多面向客户的解决方案,而本地部署 HPC 环境无法为我们提供所需的可扩展性和速度。”
Amazon 设计和工程团队对计算流体动力学、有限元分析、电子设计自动化和计算电磁学等一系列应用程序进行模拟和建模。自助服务能力是支持这些不同团队的重要要求。Amazon Lab126 的高级系统/软件开发工程师 Mickael Crozes 说:“不同的团队有不同的计算容量需求,我们缺乏灵活度,无法满足所有这些需求。我们希望集中 HPC 资源,这样每个团队都可以按需访问自己的环境。我们没有能力在每个团队需要时为他们启动新的 HPC 集群。”
“借助 AWS 上的 HPC,我们现在可以支持更多设备,探索新技术,并更好地了解设备在现场的行为方式。”
Amit Gaikwad
Amazon Lab126 无线工程高级经理
在 AWS 上构建可扩展的 HPC 框架
为了满足内部客户需求,Amazon Lab126 团队在 2017 年末选择在 Amazon Web Services (AWS) 上创建一个新的云 HPC 环境。“我们评估了第三方 HPC 服务,但最终发现 AWS 在计算实例类型的可扩展性和灵活度方面提供了最好的技术,”Crozes 说。“我们还将我们的计算和数据托付给 AWS。”
2018 年,Amazon Lab126 在 AWS 上构建了一个灵活的 HPC 参考框架,该框架取代了其本地部署 HPC 解决方案,并为横向扩展 HPC 和机器学习等工作负载提供了一个基于 AWS 的多用户研发环境。新的框架通过快速的骨干网络、无限的存储空间,以及预算和成本管理功能,集成并简化了计算任务繁重的 Amazon Elastic Compute Cloud (Amazon EC2) 实例。该框架依赖于 Amazon Elastic Block Store (Amazon EBS) 和 Amazon Elastic File System (Amazon EFS) 进行数据存储。Amazon Lab126 还将 Amazon FSx for Lustre 用于 I/O 最密集的工作负载和 AWS Backup,以使集群具有更强的故障恢复能力。Crozes 说,“AWS Backup 是自动保护生产环境的完美解决方案。我们本来需要多次迭代才能创建这样的解决方案,以保护所有团队数据、管理保留期/生命周期,而且做到简单易用。”
运行 HPC 任务的速度提高了三倍
Lab126 产品设计师和工程师已经看到了新 HPC 集群的性能提升。例如,无线设备连接团队缩短了结构性设备跌落模拟的周期时间,该模拟研究手机在跌落至地面或其他表面时的行为。“通过在 AWS 上使用横向扩展计算 HPC 框架,我们看到整个设计周期的速度提高了三倍,”Ganapathysubramanian 说。“我们现在可以运行更多模拟,因为并行执行工作负载更容易。使用本地部署 HPC 解决方案,生成数据通常需要数周的时间。现在我们在几个小时内就能完成。”
通过 AWS 上的新框架,Amazon 设备设计师和工程师可以按需扩展,以满足特定工作负载的要求。“我们的运行时间很长,需要大量计算来分析无线连接数据,”Gaikwad 说,“使用此解决方案,我们全球的工程师可以比以前快三倍的速度扩展解决方案。并且他们能够轻松缩减规模,因此,如果任务不需要 100 个 GPU,就不需要使用这么多。”
简化引导流程
Amazon Lab126 设计技术团队也可以在 HPC 集群上为新的 Amazon 设备工程团队提供引导和支持,而无需 IT 资源的帮助,完成这项工作在过去需要几周的时间,而现在只需不到一天。“我们现在有了一个集中且灵活的 HPC 环境,其能够无缝地为所有用户工作,满足所有工作负载需求,”Crozes 说。“这极大降低了引导过程的复杂性。他们中许多人都不是 HPC 专家,因此这种易用性有助于他们专注于自己的特定设计专业领域。”
Amazon 设备团队现在可以在 AWS 上执行完整的计算机辅助工程工作流(模型设计/网格划分、模拟和后处理可视化)。这可能是因为居家办公的工程师和设计师现在拥有自己专用的超级计算机和功能强大的、基于云的工作站,只需轻轻点击一下就可以了。
推动产品创新
由于基于 AWS 的 HPC 环境的可扩展性和简单易用性,Amazon 设备团队在硬件管理上花费的时间较少,可将更多的时间用于创新。“借助 AWS 上的 HPC,我们现在可以支持更多设备,探索新技术,并更好地了解设备在现场的行为方式,”Gaikwad 说。例如,Amazon 设备无线连接团队最近因为其在优化无线系统,尽量减少射频干扰方面所做的研究,获得了 DesignCon 最佳论文奖。
Ganapathysubramanian 说:“在我们进行模拟之前,还需要做很多工作,比如根据几何计算进行建模。利用 AWS 上的自动化横向扩展计算框架功能,我们降低了一些手动工作的复杂性,这样我们的工程师就能够专注于附加值更高的工作。AWS 上的 HPC 帮助我们构思新的机会。例如,在一些较新的 Amazon Echo 产品中,我们能够通过更轻松地连接 AWS 上存储的不同数据来集成热设计结构,从而优化多个产品功能的设计。”
Amazon Lab126 现在正进入其 HPC 解决方案的下一阶段,由 AWS 上的横向扩展计算框架提供支持。“我们将继续满足客户的需求,”Amazon Lab126 设计技术高级经理 Jake Boswell 说,“我们希望使参考构架更加简单,并将框架扩展到支持创新的其他领域。”
要了解更多信息,请访问 aws.amazon.com/solutions/implementations/scale-out-computing-on-aws 和 aws.amazon.com/hpc。
关于 Amazon Lab126
Amazon Lab126 总部位于加利福尼亚州桑尼维尔,是 Amazon 的一个研发团队,为 Amazon 设计消费电子设备。该实验室包括 Amazon 设备的硬件、软件和运营团队,已经开发出 Amazon Echo 和 Amazon Kindle 等知名产品。
AWS 的优势
- 以快 3 倍的速度运行 HPC 任务和扩展工作负载
- 只需不到一天即可引导新用户,而不是几周的时间
- 可以根据需要为每个团队启动新的 HPC 集群
- 推动产品设计创新
使用的 AWS 服务
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) 是一种 Web 服务,可以在云中提供安全并且可应需调整的计算容量。该服务旨在让开发人员能够更轻松地进行 Web 规模的云计算。
Amazon Elastic File System
Amazon Elastic File System (Amazon EFS) 可提供简单、可扩展、完全托管式弹性 NFS 文件系统,以与 AWS 云服务和本地部署资源配合使用。
Amazon Elastic Block Store
Amazon Elastic Block Store (EBS) 是一种易于使用的高性能数据块存储服务,旨在与 Amazon Elastic Compute Cloud (EC2) 一起使用,适用于任何规模的吞吐量和事务密集型工作负载。
AWS Backup
AWS Backup 是一种完全托管式备份服务,可以轻松集中和自动管理 AWS 服务中数据的备份。
开始使用
不同行业和规模的公司都在使用 AWS,将其日常业务运营进行转型。联系我们的专家,立即踏上您的 AWS 云之旅。