跳至主要内容

什么是高性能计算(HPC)?

什么是高性能计算?

高性能计算(HPC)是一种 IT 基础设施策略,结合多个计算系统,对数万亿个数据点执行复杂的同步计算。单一计算系统的处理能力受限于其硬件配置,在气候建模、药物研发、基因组研究等领域进行模拟时用处不大。HPC 技术可并行使用多个计算系统,使处理速度呈指数级增长。

近年来,HPC 技术已从运行科学模拟发展为大规模运行人工智能模型和工作负载。

HPC 使用案例有哪些?

在学术界、工业界和商业领域中,存在多种高性能计算的使用案例。

媒体和娱乐

高性能集群提供所需的计算能力,用于渲染视频和 3D 图形、以高清画质直播活动,以及处理 CGI。HPC 集群使媒体企业能够缩短制作周期、加快视频编码速度,并削减制作过程中的成本。

医疗保健和基因组学

医疗保健行业广泛运用 HPC,包括基因组测序、蛋白质结构预测乃至药物研发项目。在 HPC 集群上运行的人工智能模型,可进一步助力药物研发和药物采用。

在医院中,高性能计算与人工智能软件协同工作,帮助在影像扫描中识别疾病,制定个性化医疗计划,以及优化病历管理。

政府和国防

高性能计算作为一项支持性技术,为多种国防解决方案提供资源支持,例如密码学、实时监控、情报分析以及威胁检测。访问可扩展的资源系统有助于确保政府具备执行国家安全举措、军事模拟等任务所需的计算能力。

气候建模

模拟流体系统在地球表面的流动过程,无论是生成天气预报还是生成气候数据,都需要同时处理海量数据。HPS 提供快速吸收和处理数据所需的计算能力,助力预测自然灾害、监测天气系统及预报长期气候变化的机构获取见解。

金融服务

对冲基金、保险机构和银行等金融服务机构,利用 HPC 处理数据,以运行预测模型、评估信用风险和优化投资组合。HPC 提供的计算能力通过实时见解改进数据分析。

汽车行业

高性能计算是汽车行业中计算流体动力学、材料测试和碰撞模拟测试的关键技术。HPC 提供快速原型制作和实时优化设计,同时助力模拟工厂工作流程。HPC 也是自动驾驶汽车和基于计算机视觉的实时决策的核心技术。

网络安全

高性能计算使网络管理员能够分析流量,在异常情况和潜在危险发生前检测异常和识别潜在威胁。HPC 还为加密、全系统评测以及实时威胁消除提供计算资源。

HPC 如何工作?

高性能计算通过整合多台独立服务器、计算机或工作站的计算能力,提供更强大的解决方案。这种多个节点协同工作的过程称为并行计算。该系统中的每台独立机器称为节点,多个节点聚合形成集群。系统中的每个节点负责管理不同的任务,所有节点并行工作以提高处理速度。

集群节点

HPC 解决方案包括几种节点类型

  • 控制器节点协调更广泛集群系统范围内的任务。
  • Worker 节点(或计算节点)执行所有处理。
  • 交互节点(或登录节点)允许用户通过命令行或 GUI 连接至 HPC 系统。

HPC 集群可以是异构集群,即每个节点提供不同的硬件;也可以是同构集群,即每个节点具有相似的性能容量。

HPC 集群结构

HPC 集群主要分为两种结构。

集群计算

集群计算(也称为并行计算)是指一组集群在相似位置协同工作,实现相似的功能。这种结构通过采用相似的网络拓扑结构,且在物理上彼此靠近,最大限度地减少节点之间的延迟。

分布式计算

分布式计算可以使用位于相似位置或分布在全球各地的集群。这种集群架构可以同时调用本地硬件和云资源,为 HPC 提供更灵活且更可扩展的解决方法。 

HPC 任务如何工作?

HPC 系统运行两种不同类型的过程,即松散耦合的工作负载和紧密耦合的工作负载。

松散耦合的工作负载

松散耦合的工作负载是 HPC 系统独立于系统内其他可能并行运行的功能而完成的任务。许多独立任务同时发生,因此这种形式的 HPC 处理有时称作并行工作负载任务。

例如,在渲染视频时,每一帧都是不同的任务。虽然每个渲染帧的节点可能从同一存储中提取数据,但其完成任务的能力并不取决于其他节点是否完成自身任务。

紧密耦合的工作负载

紧密耦合的工作负载是指依赖彼此才能完成整体任务的 HPC 处理任务。这些工作负载利用集群的共享内存和存储,以在集群所有节点间共享信息,从而帮助每个节点并行完成任务。紧密耦合的工作负载通常需要实时协调,多个节点协同工作,提供零散的信息片段,以完成更大的任务。例如,每个节点可能负责模拟天气预报中的某个独立物理组件,而要生成最终的天气预报,必须整合所有节点的信息。

什么是云端 HPC?

云端高性能计算使企业能够利用 HPC 解决方案,而无需管理其使用的 HPC 集群。云端 HPC 是一种经济高效的解决方案,无需构造昂贵的本地数据中心,即可为企业提供所需的可扩展计算能力。

三种融合趋势已加速 HPC 云服务的扩展。

低延迟 RDMA 网络

使用远程直接内存访问(RDMA),网络节点可绕过操作系统直接访问内存。这种方法确保一个节点可在不中断其进程的情况下与其他节点进行交互,从而消除进程瓶颈、最大程度地减少延迟和最大程度地提高吞吐量。

对云计算的需求增加

由于 HPC 的使用案例范围广泛,各行各业的企业都迫切需要 HPC 服务。借助云端 HPC,这些企业无需自行构造数据中心即可访问 HPC 服务,从而显著提高这项技术的可访问性。

人工智能的广泛应用

对 HPC 云服务需求不断增长的另一大原因是人工智能和机器学习软件的广泛应用。生成式人工智能工具需要强大的计算能力,而 HPC 可为这些系统提供计算资源和可扩展性。对于希望利用企业级人工智能工具的企业而言,HPC 是一种高效的解决方案。

云端 HPC 有哪些优势?

在云中运行 HPC 有诸多优势。

统一和远程管理

每个 HPC 项目都有独特的基础设施要求。自主采购限制组织仅可投资于几种精选的配置方案。然而,HPC 云允许组织根据项目需求,灵活选择并组合存储、计算、网络节点、登录节点、GPU 及工作站等多元化配置方案。组织可以使用管理控制台,从中心位置与所有这些系统进行交互。这可简化工作流程和自动化集群功能,以提供更便捷的体验。

动态资源预置和扩展

高性能云计算系统使企业能够动态扩展其计算资源使用量,轻松实现资源扩展或缩减,以满足需求。这种灵活性可提高效率并优化资源使用。

托管更新

通过云计算提供商管理的 HPC 工作负载会自动发布更新,以确保您的系统保持最新状态。这种方法确保您的 HPC 解决方案始终保持最新状态,并提供最有效的服务。

灵活使用自定义应用程序

企业可以将应用程序迁移至其云提供商。企业可以自定义操作系统和预安装的软件,以满足特定的工作负载要求。

AWS 如何支持您的 HPC 需求?

AWS HPC 完全托管服务让您能够借助几乎无限制的 HPC 云基础设施加速创新。例如

  • AWS 并行计算服务提供完全托管的服务,您可利用该服务构建完整且具有弹性的环境,用于托管高性能计算工作负载。
  • AWS ParallelCluster 是一款一体化的开源集群管理工具,可简化在 AWS 上管理 HPC 集群的操作。
  • Amazon Elastic Fabric Adapter 帮助用户按需运行 HPC 和 ML 应用程序,支持扩展至数千个 GPU 或 CPU。
  • Amazon DCV 是一种远程显示协议,可帮助客户以安全的方式在各种网络条件下交付远程桌面和应用程序流。

立即创建免费账户,开始在 AWS 上使用高性能计算。