跳至主要内容

AWS 解决方案库

提高 AWS 上高性能计算弹性的指南

概览

本指南介绍了如何利用检查点和恢复功能,提高长期运行的高性能计算 (HPC) 和电子设计自动化 (EDA) 任务的弹性,并降低成本。一些 HPC 和 EDA 任务的执行时间可能非常长,有时持续数小时甚至数天,却没有内置的弹性机制,一旦遇到任何中断,就必须从头再来。尽管这些任务对内存的需求很高,但它们一直未能利用 Amazon Elastic Compute Cloud (Amazon EC2) 竞价型实例的成本效益。借助本指南,AWS 客户就可以采用 MemVerge Memory Machine™ Cloud Edition (MMCE) 代理。MMCE 允许用户在整个任务中设置检查点,并在 Amazon EC2 竞价型实例中断时从最后一个检查点恢复任务,从而提高弹性并降低成本。通过引入这些功能,更多的 EDA 任务受益于 Amazon EC2 竞价型实例带来的成本节省。

工作原理

这些技术细节包含一张架构图,用于说明如何有效使用本解决方案。该架构图展示了关键组件及其相互作用,并逐步概述了架构的结构和功能。

Well-Architected 支柱

上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。

HPC 调度器监控运行任务的 Amazon EC2 实例,启动一个新实例以在中断时替换该实例,并记录初始实例的故障。接着,它会将第一个和第二个实例上花费的时间合并起来,计算出任务的完整运行时间。这样用户就能够观察到中断带来的影响,分为“净”运行时间(实际的 CPU 时间)和 “时钟”时间(从任务提交到完成的总时间)。

阅读卓越运营白皮书

Lambda 函数触发的自动清理旧检查点通过移除不必要的数据存储空间来帮助管理攻击面积。

阅读安全白皮书

A mazon EC2 竞价型实例中断会导致在共享存储卷中创建工作负载状态的检查点。然后,HPC 调度器会检测到故障,并启动新实例来恢复任务。任务不是从零开始重新启动,而是加载检查点,使得工作负载能够从中断的地方继续执行。

阅读可靠性白皮书

本指南允许客户将其更多的 EDA 和 HPC 工作负载迁移到 Amazon EC2 竞价型实例。使用竞价型实例节省下来的成本,可以帮助客户使用更高性能的计算实例,而这些实例之前的高昂成本可能让客户难以承受。这使客户能够减少工作负载的总体运行时间。

阅读性能效率白皮书

Amazon EC2 竞价型实例允许用户节省成本,不受前期财务承诺或实例类型限制的限制。此外,负责清理过时检查点的 Lambda 函数有助于确保存储成本与当前运行的任务数量保持一致。这样可以有效防止不必要的检查点数据随时间积累。

阅读成本优化白皮书

通过使用 Amazon EC2 竞价型实例和高性能共享存储服务,本指南在用户和 AWS 之间分配了可持续发展责任,AWS 负责底层基础设施及其环境影响,而客户可以专注于优化工作负载。能够量化使用 Amazon EC2 竞价型实例和优化存储的性能和成本效益,使用户能够更好地了解其工作负载对环境的影响。此外,A mazon EC2 竞价型实例有助于最大限度地利用 AWS 计算资源,减少总体资源需求和下游环境影响。最终,检查点和恢复功能的集成,加之高性能共享存储的运用,使得工作负载可以从检查点恢复,这最大限度地减少了从头开始重新运行任务的需求,进而减少了总体资源的消耗。

阅读可持续发展白皮书

相关内容

博客

使用 EC2 Spot 最多可节省 90% 的费用,即使是长时间运行的 HPC 任务也是如此

这篇博客文章演示了如何使用 EC2 竞价型实例优化 HPC 计算成本。

免责声明

示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。

本指南中提及第三方服务或组织并不意味着 Amazon 或 AWS 与第三方之间存在认可、赞助或从属关系。AWS 的指南是一个技术起点,您可以在部署架构时自定义与第三方服务的集成。

找到今天要查找的内容了吗?

请提供您的意见,以便帮助我们提高页面内容的质量