使用 NIST SP 800-223 满足高性能计算(HPC)工作负载需求
本指导将展示如何使用基础设施即代码(IaC)模板部署安全、合规的高性能计算(HPC)工作负载。IaC 模板会自动为功能齐全的 HPC 环境预置资源,此环境符合美国国家标准与技术研究所(NIST)特别出版物(SP)800-223 的安全要求。通过提供一整套专为 HPC 量身定制的 AWS 服务,包括高性能处理器、低延迟网络和可扩展的存储选项,本指导将使用户能够高效地构建和管理安全、合规、高性能的计算环境。
请注意:[免责声明]
架构图

-
网络、安全性和基础设施部署
-
HPC 集群部署
-
网络、安全性和基础设施部署
-
此架构图显示了如何使用 AWS CloudFormation 模板预置网络资源、安全性和存储组件,以部署本指导。下一个选项卡显示了如何使用 AWS ParallelCluster CloudFormation 堆栈部署 HPC 资源。
第 1 步
管理员可以使用一系列 AWS CloudFormation 模板部署此架构。这些模板会预置网络资源,包括 Amazon Virtual Private Cloud(Amazon VPC)和子网。 -
HPC 集群部署
-
此架构图显示了如何使用 AWS ParallelCluster CloudFormation 堆栈部署 HPC 资源。它引用了上一个选项卡中的网络、存储、安全性、数据库和用户目录组件。
第 1 步
管理员使用 AWS ParallelCluster AWS CloudFormation 堆栈部署 HPC 资源。 资源可以引用之前启动的 CloudFormation 堆栈中的网络、存储、安全、数据库和用户目录。
Well-Architected 支柱

当您在云中构建系统时,AWS Well-Architected Framework 可以帮助您了解所做决策的利弊。框架的六大支柱使您能够学习设计和操作可靠、安全、高效、经济高效且可持续的系统的架构最佳实践。使用 AWS 管理控制台中免费提供的 AWS Well-Architected Tool,您可以通过回答每个支柱的一组问题,根据这些最佳实践来检查您的工作负载。
上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。
-
卓越运营
CloudFormation 和 AWS ParallelCluster 支持 IaC 实践,以实现一致、可重复的 HPC 部署。Amazon CloudWatch 提供了监控和可观测性,以评测集群的性能和运行状况。这些服务共同实现了 HPC 部署自动化,支持合规性和安全性,并推动了安全的基础设施管理。这种方法符合 NIST SP 800-223 的建议,因此您可以在 AWS 上管理复杂的 HPC 工作负载时实施最佳实践。
-
安全性
Amazon VPC 支持按照 NIST SP 800-223 的建议,将 HPC 环境进行网络隔离和划分成不同的安全区域(访问、管理、计算和存储)。此外,AWS Identity and Access Management(IAM)、AWS Key Management Service(AWS KMS)和 AWS CloudTrail 等服务可直接满足关键安全性要求。具体而言,IAM 提供了精细的访问控制并实施最低权限,AWS KMS 提供了静态数据加密和传输中数据加密,CloudTrail 提供了全面的 API 审计。这种多层方法支持基于区域的安全架构,并具有适当的访问控制、数据保护和全面监控。
-
可靠性
AWS ParallelCluster 为部署和运行 HPC 集群提供了一个框架,以实现一致的设置。Amazon EFS 和 适用于 Lustre 的 FSx 为 HPC 工作负载提供了优化的文件系统,Amazon S3 用来存储活动数据和存档。Amazon Relational Database Service(Amazon RDS)通过自动备份功能管理 Slurm 会计数据库,AWS Auto Scaling 可调整容量以便以经济高效的方式保持性能。这些服务可提供强大的数据存储、支持关键组件可用性并能够实现自动扩缩,以解决 NIST SP 800-223 中概述的可靠性问题。
-
性能效率
Amazon EC2 提供了针对各种 HPC 工作负载进行了优化的实例类型,包括支持 GPU 的用于进行加速计算的实例。适用于 Lustre 的 FSx 提供了专为 HPC 设计的高性能文件系统,AWS ParallelCluster 可自动创建 HPC 环境,以实现高效的部署和扩展。这些服务提供了 HPC 工作负载必需的计算能力、存储性能和作业调度功能,这样,用户无需管理复杂的基础设施即可实现最佳性能。
-
成本优化
AWS ParallelCluster 根据工作负载需求自动扩展计算资源并为可中断的任务支持 Amazon EC2 竞价型实例,以优化 HPC 环境中的成本。与 Amazon EC2 按需型实例相比,这种动态调整最多可降低 90% 的成本。此外,Amazon S3 Intelligent-Tiering 会自动将数据移到最具成本效益的访问层,从而优化大型 HPC 数据集的存储成本。这些服务可以高效地管理容量和存储,以满足 HPC 系统的重要计算资源需求。
-
可持续性
Amazon EC2 Auto Scaling 和 AWS ParallelCluster 可动态调整计算资源以满足工作负载需求,并最大限度地减少了空闲资源,以支持 HPC 环境的可持续性。AWS Batch 优化了批处理工作负载的资源分配,Amazon S3 Intelligent-Tiering 会自动将数据移到适当的存储层,因此降低了不经常访问的数据的能耗。尽管 NIST SP 800-223 并未明确将重点放在可持续性上,但这些服务与其对资源高效利用的强调一致。通过使用节能型处理器、将资源与需求匹配以及自动执行数据管理,这些服务最大限度地减少了过度预置造成的浪费,这是传统 HPC 环境中的一个常见问题。这种方法不仅减少了 HPC 运营对环境的影响,通常还能节省成本,这表明可持续性和成本优化可以成为基于云的 HPC 的补充目标。
免责声明
示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。
本指南中提及第三方服务或组织并不意味着 Amazon 或 AWS 与第三方之间存在认可、赞助或从属关系。AWS 的指南是一个技术起点,您可以在部署架构时自定义与第三方服务的集成。