在許多 HPC 工作負載中,若要達到最佳的應用程式或工作流程端對端效能,則會取決於選擇適合的技術用於在處理期間託管檔案,或是選擇網路堆疊以針對 MPI 或其他通訊協定最佳化執行。本單元涵蓋了有關 AWS 針對上述領域提供的選項,以及關於價格/效能考量的指南,可協助您為每個工作負載選擇適合的解決方案

涵蓋的主題:

  • AWS 上的 HPC 適用儲存
  • 適用於 HPC 工作負載的網路擴展性

AWS 儲存選項概觀:AWS 提供許多儲存選項,從高效能物件儲存乃至可連接至 EC2 執行個體的許多檔案系統類型,皆應有盡有。除了完整效能外,多維度特色亦讓這些儲存類型獨樹一格,包括成本和擴展性。下表可針對尋找適合每個 HPC 資料的儲存,為您提供一些方向指引:

適用於 HPC 的共享檔案系統:您可透過許多方式實現共享儲存,例如使用簡易的 EBS 磁碟區 NFS 掛載、使用組合自 EBS 磁碟區的 Intel Lustre,以及使用名為 EFS 的受管理 AWS 服務。如同使用執行個體類型,可讓您輕鬆測試儲存選項,找到最具效能的檔案系統類型。

執行個體連接儲存:EBS 磁碟區亦提供各式各樣的選項,包括高 IOPS 磁碟區、一般用途以及磁性選項。許多 HPC 應用程式,針對價格較為經濟實惠的一般用途與磁性磁碟區 EBS 儲存類型,皆可發揮極佳的運作效能。如同選擇執行個體,選擇 EBS 磁碟區可讓您輕鬆執行測試,以找到最佳的解決方案。

實驗室儲存組態:在預設 EnginFrame 自動化中使用的儲存組態選項如下所述:

  • 整合指令碼會將 EFS 磁碟區掛載於主節點與運算節點上的 /efs 下 – 此檔案系統包含應用程式的目錄,以及預設會為每個任務主控個別提交目錄的多工緩衝處理器目錄
  • AWS ParallelCluster 亦提供連接至主要節點的 EBS gp2 磁碟區,並採用 NFS 掛載至運算節點作為 /shared
  • 主執行個體的 /home 目錄,亦會採用 NFS 掛載至運算節點。正安裝在與作業系統相同的檔案系統上,不建議使用於持久性儲存

這些共享檔案系統的效能,可能會視各個工作負載不同而有實質上的差異。為了解哪個共享檔案系統最適合您,最佳做法是針對 /efs (設定為 EnginFrame 的預設位置) 和 /shared 上的相同案例,執行效能評定。


目前 AWS 聯網:AWS 目前支援使用 SR-IOV (單一根目錄 I/O 虛擬化) 的增強型聯網功能。SR-IOV 是一種裝置虛擬化方法,與傳統實作相比,它不僅能提高 I/O 效能,同時還能降低 CPU 利用率。針對支援的 Amazon EC2 執行個體,此功能提供更高的每秒封包 (PPS) 效能、更低的界面間延遲以及極低的網路抖動,此外亦已通過測試,可針對「高輸送量運算」(HTC) 的「勉強平行」應用程式,以及「緊密結合」或是以 MPI 和 OpenMP 為基礎的 HPC 應用程式,發揮極佳的運作效能。 

網路速度取決於執行個體類型與大小,例如 r4.16xlarge 在使用相同的置放群組 (一種執行個體的邏輯分組) 和增強型聯網時,可提供 20Gb 的界面間連線能力。

實驗室聯網組態:依預設,實驗室會建立新的置放群組,並要求在其中啟動叢集的所有運算節點。此項目提供最低的延遲與最高的節點間頻寬,在您執行 MPI 應用程式時尤為至關緊要。如果您在將數千個或更多核心 (超過此實驗室的處理範圍) 水平擴展至 10s 時遇到 HTC 問題,則應考慮在多個置放群組上執行這些核心,為 EC2 提供更高靈活性來決定此大量節點的分配位置。您可以在 AWS ParallelCluster 組態中設定下列參數,以停用固定置放群組:

placement_group = NONE

提示:如果您需要將叢集擴展為巨量節點,或是具有高效能儲存需求,建議您洽詢「技術客戶經理」或「HPC 解決方案架構師」,其可檢閱您的目標架構、協助找出潛在瓶頸,以及選擇適合您特定目標的適當技術。