HPC 常见问题 – Amazon Web Services

AWS ParallelCluster

一般性问题

问：我为什么应该使用 AWS ParallelCluster？

如果您想要在 AWS 上运行高性能计算（HPC）工作负载，您应该使用 AWS ParallelCluster。您可以使用 AWS ParallelCluster 为 HPC 应用程序快速构建测试环境，并将其用作在云中构建 HPC 基础设施的起点。AWS ParallelCluster 最大程度降低了集群管理的运营开销，并简化了向云的迁移路径。

问：什么类型的应用程序可以从使用 AWS ParallelCluster 中获益？

需要云中熟悉、类似集群的环境的高性能计算应用程序（例如 MPI 应用程序和使用 NCCL 的机器学习应用程序）最有可能受益于 AWS ParallelCluster。

问：AWS ParallelCluster 与其他 AWS 服务如何相关/配合使用？

AWS ParallelCluster 可与完全托管式 AWS 批处理调度器 AWS Batch 集成。AWS Batch 可以被认为是本地批处理调度器的“云原生”替代品，具有资源预调配的额外益处。
AWS ParallelCluster 还与 Elastic Fabric Adapter（EFA）集成，用于在 HPC 集群节点之间要求低延迟联网的应用程序。AWS ParallelCluster 还与 Amazon FSx for Lustre（一个高性能文件系统，具有用于计算工作负载的可扩展存储）和 Amazon Elastic File System 集成。

问：AWS ParallelCluster 在构建集群时会创建什么？

AWS ParallelCluster 会为构建和控制预调配一个首节点、一个计算实例集群、一个共享文件系统和一个批处理调度器。您还可以使用自定义的安装前和安装后引导操作扩展和自定义您的应用场景。

问：哪些批处理调度器与 AWS ParallelCluster 配合使用？

AWS ParallelCluster 支持 AWS Batch（AWS 的完全托管式云原生批处理调度器），并且还与 SLURM 兼容。

问：AWS ParallelCluster 支持哪些 Linux 发行版？

AWS ParallelCluster 目前与 Amazon Linux 2、Ubuntu 18.04、CentOS 7 和 CentOS 8 兼容。AWS ParallelCluster 提供默认 AMI（每个区域的每个兼容 Linux 发行版一个）列表供您使用。请注意，Linux 发行版可用性在 GovCloud 和中国分区中更为受限。您可以通过查看 https://docs.aws.amazon.com/parallelcluster/latest/ug/cluster-definition.html#base-os 中的 AWS ParallelCluster 用户指南了解有关发行版兼容性的更多信息。

此外，当您的集群在 Amazon Linux 上运行时，您可以运行 AWS ParallelCluster 命令行工具在任何能够运行 Python 并下载 AWS ParallelCluster 包的计算机上创建和管理您的集群。

问：我是否能够将我自己的 AMI 与 AWS ParallelCluster 结合使用？

您可以通过三种方式自定义 AWS ParallelCluster AMI。您可以获取和修改现有的 AWS ParallelCluster AMI，也可以获取现有的自定义 AMI 并在其之上应用 AWS ParallelCluster 所需的更改，或者您可以在运行时使用自己的自定义 AMI。有关更多信息，请访问 https://aws-parallelcluster.readthedocs.io/en/latest/tutorials/02_ami_customization.html。

问：AWS ParallelCluster 是否支持 Windows？

AWS ParallelCluster 不支持构建 Windows 集群。但是，您可以在 Windows 机器上运行 AWS ParallelCluster 命令行工具。有关更多信息，请访问 https://docs.aws.amazon.com/parallelcluster/latest/ug/install-windows.html。

问：AWS ParallelCluster 是否支持预留实例和竞价型实例？

是。AWS ParallelCluster 支持按需、预留和竞价型实例。请注意，在竞价型实例上完成的工作可以中断。我们建议您只将竞价型实例用于灵活的容错应用程序。

问：我的集群计算节点中是否能够有多个实例类型？

是。您可以有多个队列，每个队列可以有多个实例。

问：我可以用 AWS ParallelCluster 构建多大的集群？

可以使用 AWS ParallelCluster 构建的集群的大小没有内置限制。但是，您应该考虑一些约束条件，例如您的账户存在的实例限制。对于某些实例类型，默认限制可能小于预期的 HPC 集群大小，在构建集群之前需要增加限制请求。有关 EC2 限制的更多信息，请参阅 https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-resource-limits.html。

问：AWS ParallelCluster 是否支持使用置放群组？

是。虽然 AWS ParallelCluster 默认情况下不使用置放群组，但您可以通过向 AWS ParallelCluster 提供现有置放群组或允许 AWS ParallelCluster 在启动时创建新的置放群组来启用它。您还可以配置整个集群或仅配置计算节点来使用置放群组。有关更多信息，请参阅 https://cfncluster.readthedocs.io/en/latest/configuration.html#placement-group。

问：我可以将什么类型的共享存储与 AWS ParallelCluster 结合使用？

默认情况下，AWS ParallelCluster 自动配置一个附加到集群主节点并通过网络文件系统（NFS）导出至集群计算节点的 15GB 的 Elastic Block Storage（EBS）的外部卷。您可以通过 https://docs.aws.amazon.com/parallelcluster/latest/ug/ebs-section.html 了解有关配置 EBS 存储的更多信息。可以根据您的需求配置此共享存储的卷。

AWS ParallelCluster 还与 Amazon Elastic File System（EFS）、RAID 和 Amazon FSx for Lustre 文件系统兼容。还可以将 AWS ParallelCluster 与 Amazon S3 对象存储配置为作业输入的源或作业输出的目标。有关使用 AWS ParallelCluster 配置所有这些存储选项的更多信息，请访问 https://docs.aws.amazon.com/parallelcluster/latest/ug/configuration.html。

问：AWS ParallelCluster 的成本是多少？

您无需为 AWS ParallelCluster 支付额外费用，只需为运行应用程序所需的 AWS 资源付费。

问：AWS ParallelCluster 在哪些区域提供？

AWS ParallelCluster 现已在以下区域推出：美国东部（弗吉尼亚州北部）、美国东部（俄亥俄州）、美国西部（北加利福尼亚）、美国西部（俄勒冈州）、欧洲（斯德哥尔摩）、欧洲（巴黎）、欧洲（伦敦）、欧洲（法兰克福）、欧洲（爱尔兰）、欧洲（米兰）、非洲（开普敦）、中东（巴林）、亚太地区（孟买）、亚太地区（首尔）、亚太地区（东京）、亚太地区（新加坡）、亚太地区（悉尼）、亚太地区（香港）、AWS GovCloud（US-Gov-East）、AWS GovCloud（US-Gov-West）、中国（北京）和中国（宁夏）。

问：AWS ParallelCluster 如何受到支持？

您负责运营集群，包括对 EC2 实例和批处理调度器进行必要的维护、安全补丁、用户管理和 MPI 故障排除。AWS ParallelCluster 支持仅限于与资源构建和 AWS Batch 集成相关的问题。AWS Batch 调度器问题由 AWS Batch 服务团队提供支持。有关其他非 AWS 调度器的问题应引导至其自己的支持社区。如果您使用自定义 AMI 而不是 AWS ParallelCluster 默认 AMI 中的一个，请注意，AWS ParallelCluster 不支持与使用自定义 AMI 相关的任何操作系统问题。

问：AWS ParallelCluster 是如何发布的？

AWS ParallelCluster 通过 Python 包索引（PyPI）发布，并且可以通过 pip 安装。AWS ParallelCluster 的源代码托管在 GitHub 上的 Amazon Web Services 上，网址为 https://github.com/aws/aws-parallelcluster。

Elastic Fabric Adapter（EFA）

问：为什么应该使用 EFA？

EFA 为紧密耦合的高性能计算（HPC）应用程序带来了云的可扩展性、灵活性和弹性。使用 EFA 之后，紧密耦合的 HPC 应用程序可以获得比传统 TCP 通道更低、更一致的延迟和更高的吞吐量，因此能更好地进行扩展。EFA 支持可以在任何受支持的 EC2 实例上按需动态启用，无需预先保留，让您可以灵活地响应不断变化的业务和工作负载优先级。

问：使用 EFA 能够让哪些类型的应用程序获益？

HPC 应用程序将计算工作负载分布在一组实例中以进行并行处理。HPC 应用程序示例包括计算流体动力学（CFD）、坠毁模拟和天气模拟。HPC 应用程序通常使用消息传递接口（MPI）编写，对于实例间通信的延迟和带宽具有严格的要求。使用 MPI 和其他支持 libfabric 通信堆栈的 HPC 中间件的应用程序可以从 EFA 中受益。

问：EFA 通信的原理是什么？

EFA 设备提供所有 Elastic Network Adapter (ENA) 设备的功能，以及一个新的操作系统，该系统绕过硬件接口，使用户空间应用程序可以直接与硬件提供的可靠传输功能通信。大部分应用程序都会使用现有中间件与 EFA 连接，例如消息传递接口 (MPI)。AWS 与多家中间件提供商合作，确保支持 EFA 的 OS 绕过功能。请注意，使用 OS 绕过功能的通信仅限于 Virtual Private Cloud (VPC) 的单个子网中的实例。

问：哪些实例类型支持 EFA？

EFA 目前在 c5n.18xlarge、c5n.metal、i3en.24xlarge、i3en.metal、inf1.24xlarge、m5dn.24xlarge、m5n.24xlarge、r5dn.24xlarge、r5n.24xlarge、p3dn.24xlarge、p4d、m6i.32xlarge、m6i.metal、c6i.32xlarge、c6i.metal、r6i.32xlarge、r6i.metal、x2iezn.12xlarge、x2iezn.metal 和 hpc6a.48xlarge 实例上提供。

问：EFA ENI 和 ENA ENI 有什么区别？

ENA 弹性网络接口（ENI）提供支持 VPC 网络所需的传统 IP 网络功能。EFA ENI 提供 ENA ENI 的所有功能，并为应用程序直接与 EFA ENI 通信提供硬件支持，而不需要使用扩展编程接口的实例内核（OS 绕过通信）。由于 EFA ENI 具备这些高级功能，所以只能在启动时或在停止的实例上进行连接。

问：Elastic Fabric Adapter (EFA) 和 Elastic Network Adapter (ENA) Express 均使用可扩展的可靠数据报（SRD）。两者有何不同？

EFA 和 ENA Express 都使用 AWS 构建的 SRD 协议。EFA 专为紧密耦合的工作负载而构建，可直接由硬件提供与应用程序层的传输通信。ENA Express 旨在将 SRD 协议用于使用 TCP 和 UDP 协议的传统联网应用程序。 ENA Express 也在可用区内工作。

问：在实例上启用 EFA 的先决条件是什么？

EFA 支持可以在启动实例时启用，或者添加至已停止的实例。EFA 设备无法添加至正在运行的实例。

NICE DCV

一般性问题

问：我为什么应使用 NICE DCV？

NICE DCV 是一种针对图形进行优化的流传输协议，非常适合广泛的使用场景，从移动设备上的流传输生产力应用程序到 HPC 模拟可视化。在服务器端，NICE DCV 支持 Windows 和 Linux。在客户端，它支持 Windows、Linux 和 MacOS，并为基于 HTML5 浏览器的跨设备访问提供 Web 客户端。

问：我是否需要下载本机客户端以使用 NICE DCV？

否。NICE DCV 可与任何 HTML5 Web 浏览器结合使用。但是，本机客户端支持额外的功能，如多显示器支持，Windows 本机客户端还支持 3D 鼠标、存储设备和智能卡的 USB 支持。对于需要这些功能的工作流，您可以在此下载适用于 Windows、Linux 和 MacOS 的 NICE DCV 本机客户端。

问：什么类型的应用程序可以从使用 NICE DCV 中获益？

虽然 NICE DCV 的性能与应用程序无关，但将 NICE DCV 与需要低延迟的 3D 图形密集型应用程序一起使用时，客户可以观察到明显的流传输性能优势。地震和油藏模拟、计算流体动力学（CFD）分析、3D 分子建模、VFX 合成和基于游戏引擎的 3D 渲染等 HPC 应用程序都是 NICE DCV 性能优势明显的应用示例。

问：NICE DCV 协议是否安全？

是。NICE DCV 的自定义协议负责安全高效地将服务器上生成的图像传输到客户端，反过来，允许客户端控制服务器的键盘和鼠标。协议的传输层利用标准的 WebSocket 和 TLS 技术，以确保最高级别的安全性以及与任何网络基础设施的兼容性。

问：哪些实例类型支持 NICE DCV？

所有基于 Amazon EC2 x86-64 架构的实例类型均支持 NICE DCV。当与兼容 NVIDIA GRID 的 GPU 实例（例如 G2、G3 和 G4）结合使用时，NICE DCV 将利用硬件编码提高性能并减少系统负载。

启用 NICE DCV

问：在 Amazon EC2 上使用 NICE DCV 时，我是否需要安装 NICE DCV 许可证服务器？

否，您不需要许可证服务器即可在 EC2 实例上安装并使用 NICE DCV 服务器。但是，您需要配置您的实例以保证对 Amazon S3 存储桶的访问。NICE DCV 服务器自动检测到它正在 Amazon EC2 实例上运行，并定期连接到 Amazon S3 存储桶，以确定是否有有效的许可证可用。有关在 Amazon EC2 上进行 NICE DCV 许可证设置的进一步说明，请参阅此处的文档。

问：我是否能在运行的实例上启用 NICE DCV？

是。NICE DCV 是可下载软件，可以下载并安装在运行的会话中。至 NICE DCV 下载页面的链接见此处。

问：NICE DCV 服务器支持什么 Windows 和 Linux 发行版？

NICE DCV 服务器的操作系统支持记录在此处。

使用 NICE DCV

问：我如何监控 NICE DCV 的实时性能？

NICE DCV 客户端为非全屏模式时，在远程会话顶部显示工具栏功能区。单击“设置” >> “流传输模式”。这将弹出一个窗口，允许用户在“最佳响应能力（默认）”和“最佳质量”之间进行选择。单击弹出窗口底部的“显示流传输指标”以监控实时性能帧率、网络延迟和带宽使用。

问：我如何管理 NICE DCV 服务器？

NICE DCV 服务以操作系统服务形式运行。您必须以管理员（Windows）或根用户（Linux）身份登录才能启动、停止或配置 NICE DCV 服务器。有关更多信息，请参阅此处的文档。

问：NICE DCV 在什么端口上通信？

默认情况下，NICE DCV 服务器被配置为通过端口 8443 通信。您可以在安装 NICE DCV 服务器后指定一个自定义 TCP 端口。该端口必须大于 1024。

问：我如何在 Linux USING NICE DCV 上启用 GPU 共享？

GPU 共享使您可以在多个 NICE DCV 虚拟会话之间共享一个或多个物理 GPU。使用 GPU 共享使您可以使用一个 NICE DCV 服务器并托管多个共享服务器物理 GPU 资源的虚拟会话。有关如何启用 GPU 共享的更多详细信息，请参阅此处的文档。

问：NICE DCV 的 GPU 共享功能是否提供在 Windows 中？

否，NICE DCV GPU 共享仅在 Linux NICE DCV 服务器上提供。

问：什么是虚拟会话，我如何管理它们？

虚拟会话仅在 Linux NICE DCV 服务器上受支持。一个 NICE DCV 服务器可以同时托管多个虚拟会话。虚拟会话由 NICE DCV 用户创建和管理。NICE DCV 用户只能管理他们创建的会话。根用户可以管理目前在 NICE DCV 服务器上运行的所有虚拟会话。有关管理虚拟会话的说明，请参阅此处的文档。

NICE EnginFrame

问：我为什么应该使用 EnginFrame？

您应该使用 EnginFrame，因为它可以提高领域专家（如科学家、工程师和分析师）的生产力，让他们轻松地将工作流扩展到云中，并减少他们获得结果的时间。EnginFrame 减少了管理员管理 AWS 资源的开销，以及用户对这些资源的权限和访问。这些功能将帮助您节省时间，减少错误，并让您的团队更专注于执行创新的研究和开发，而不用担心基础设施管理。

问：我如何在本地环境中启用 EnginFrame？

EnginFrame AWS HPC 连接器在 EnginFrame 版本 2021.0 或更高版本中受支持。当您在环境中安装 EnginFrame 后，管理员可以开始从管理员门户中定义 AWS 集群配置。

问：EnginFrame 管理员如何设置或配置 AWS HPC 环境？

EnginFrame 管理员可以使用 AWS ParallelCluster 创建运行在 AWS 上的 HPC 集群，以便接受用户的作业。要在 EnginFrame 中执行此操作，管理员可以从创建、编辑或上传 ParallelCluster 集群配置开始。作为集群创建步骤的一部分，管理员为给定的 AWS 集群创建唯一的名称，并指定是否所有用户、特定的一组用户和/或用户组都可以访问该集群，或者没有用户可以访问该集群。一旦创建了 AWS 集群，在管理员将其删除之前，该集群仍可接受提交的作业。默认情况下，处于创建状态的 AWS 集群将只使用所需的最小资源集，以便准备好接受提交的作业，并且随着作业的提交而弹性地纵向扩展。

问：用户如何在本地运行其作业或在 AWS 上运行之间选择？

对于管理员已启用 AWS 作为选项的 EnginFrame 服务，您可以使用下拉菜单从跨本地和 AWS 的任何可用计算队列中进行选择。管理员可以包含文本描述，以帮助您选择哪个队列适合运行您的工作负载。

问：我可以在 AWS 上将哪个作业调度器与 EnginFrame 结合使用？我是否可以在本地和 AWS 上使用不同的作业调度器？

对于在 AWS 上创建的集群，EnginFrame 支持 Slurm。您还可以选择在本地使用与 AWS 上不同的调度器（例如，在本地使用 LSF，在 AWS 中使用 Slurm）。对于为使用不同的作业调度器在本地和 AWS 中同时提交作业而设置的 EnginFrame 服务，管理员需要确保任何作业提交脚本都支持通过这些调度器进行提交。

问：我可以在 AWS 中使用哪些操作系统？我是否可以在本地和 AWS 上使用不同的操作系统？

EnginFrame 在 AWS 上支持 Amazon Linux 2、CentOS 7、Ubuntu 18.04 和 Ubuntu 20.04 操作系统。您可以选择在本地使用与您在 AWS 上所用的不同的操作系统。但是，如果您打算使用 EnginFrame 在本地和 AWS 中运行相同的工作负载，我们建议使用相同的操作系统，以减少环境差异并简化工作负载的可移植性。

问：EnginFrame 的成本是多少？

在 AWS 上使用 EnginFrame 不收取任何额外费用。您只需为用于存储和运行应用程序的 AWS 资源付费。

在本地使用 EnginFrame 时，您需要提供一个许可证文件。要获得评估许可证，或购买新的生产许可证，请与在您的国家/地区提供销售、安装服务和支持的授权 NICE 分销商或经销商联系。

Research and Engineering Studio on AWS

问：什么是 Research and Engineering Studio on AWS？

Research and Engineering Studio on AWS（RES）是一个简单易用的开源 Web 门户，可供管理员创建和管理安全的、基于云的研究与工程环境。使用 RES，科学家和工程师无需掌握云计算专业知识即可实现数据可视化并运行交互式应用程序。

问：为什么应该使用 RES？

如果您运行工程和研究工作负载，并且更喜欢使用简单的基于 Web 的门户在 AWS 上创建和管理虚拟桌面，则应该使用 RES。RES 使您能够：设置虚拟桌面环境；支持研究人员和工程师创建并连接到 Windows 和 Linux 虚拟桌面；从单一界面监控、预算和管理虚拟桌面实例集；通过基于 Web 的门户管理您的 VDI 环境；以及根据虚拟桌面需求挂载共享存储，方便数据访问。如果研究人员和工程师需要交互并讨论输出和设计，或者在扩展工程工作负载之前模拟测试用例，RES 可以提供强大的虚拟桌面来执行此操作。

问：如何管理共享存储？

RES 管理员有责任创建和维护文件系统，以便用户获得所需的数据。RES 支持 Amazon EFS 和适用于 NetApp ONTAP 的 Amazon FSx 文件类型，管理员可以通过 RES 创建这些类型，也可以载入现有文件系统。有关管理和创建存储的更多详细信息，请参阅文档。

问：如何访问产品文档？

访问 RES 文档。

问：RES 如何收费？

您无需为 RES 支付额外的费用，只需支付支持您应用程序的 AWS 资源费用。

问：RES 在哪些区域提供？

RES 在部分区域提供。您可以在文档中找到这些区域的列表。

问：如何支持 RES？

您负责对 EC2 实例和批量调度程序进行必要的维护、安全修补、用户管理以及在虚拟桌面实例上运行软件。RES 支持仅限于与资源建设相关的问题。如果您使用自定义 AMI 而不是 RES 默认 AMI 中的一个，请注意，RES 不支持与使用自定义 AMI 相关的任何操作系统问题。

问：RES 支持哪些操作系统？

RES 目前与 Windows 和 Linux 操作系统兼容。对于 Linux，RES 支持以下发行版：Amazon Linux 2、CentOS 7、Red Hat Enterprise Linux 7、Red Hat Enterprise Linux 8 和 Red Hat Enterprise Linux 9。

问：如何获取更多 Windows Remote Desktop Services 许可证？

每个 Amazon EC2 实例随附两个用于管理的 Remote Desktop Services（也称为 Terminal Services）许可证。此快速入门可帮助您为管理员预置这些许可证。您还可以使用 AWS Systems Manager 会话管理器，使您无需 RDP 和 RDP 许可证即可远程控制 EC2 实例。如果需要更多 Remote Desktop Services 许可证，则应从 Microsoft 或 Microsoft 许可证经销商处购买 Remote Desktop 用户 CAL。通过有效软件保障获得的 Remote Desktop 用户 CAL 具有许可证移动性优势，并可用于 AWS 默认（共享）租户环境。如需了解如何在没有软件保障或许可证移动性优势的情况下使用许可证，请参阅常见问题的这一部分。

问：RES 中的虚拟桌面是否支持竞价型实例？

不。RES 中的虚拟桌面仅支持按需型实例。

问：RES 是如何发布的？

RES 通过 GitHub 上的 Amazon Web Services 存储库发布。您可以在那里找到安装选项。

详细了解适用于 HPC 的 AWS 服务

详细了解可用于在 AWS 上构建 HPC 解决方案的所有 AWS 服务。

了解更多

注册免费账户

立即享受 AWS Free Tier。

开始使用 AWS 上的 HPC

在 AWS 上构建您的第一个 HPC 集群。

常见问题

AWS ParallelCluster

Elastic Fabric Adapter（EFA）

NICE DCV

NICE EnginFrame

Research and Engineering Studio on AWS

终止对 Internet Explorer 的支持