跳至主要內容

什麼是高效能運算?

高效能運算 (HPC) 是一種 IT 基礎設施策略,它將多組運算系統組合在一起,跨數萬億個資料點同時執行複雜的計算。單個運算系統的處理能力受到硬體的限制,在執行氣候建模、藥物開發、基因體研究等領域的模擬方面用處較小。HPC 技術可以平行使用多個運算系統,以指數級增加處理速度。

近年來,HPC 技術已從執行科學模擬發展為大規模執行 AI 模型和工作負載。

有哪些 HPC 使用案例?

學術界、產業界和商業界都存在多種高效能運算的使用案例。

媒體與娛樂

高效能叢集提供轉譯視訊和 3D 圖形、以高視訊品質串流現場活動以及處理 CGI 所需的運算能力。藉助 HPC 叢集,媒體企業縮短生產時間表、加快視訊編碼,並且降低生產過程中的成本。

醫療保健與基因體學

醫療保健產業以多種方式使用 HPC,從基因體測序到蛋白質結構預測,甚至是藥物開發計劃。在 HPC 叢集上執行的 AI 支援模型進一步協助改進藥物研究和採用。

在醫院中,高效能運算與 AI 軟體一起運作,協助在影像掃描中識別疾病、建立個人化醫療計劃,以及最佳化醫療記錄管理。

政府與國防

高效能運算是一種支援性技術,可為多種國防解決方案提供資源,例如密碼學、即時監控、情報分析和威脅偵測。存取可擴展的資源系統有助於確保政府擁有執行國家安全計劃、軍事模擬等所需的運算能力。

氣候建模

模擬整個地球流體系統的流動以進行天氣報告和產生氣候資料,這需要同時處理大量資料。HPC 提供快速吸收和處理資料所需的運算能力,協助為預測自然災害、監測天氣系統和預測長期氣候變化的機構提供洞見。

金融服務

對沖基金、保險機構和銀行等金融服務機構使用 HPC 來處理執行預測模型、預測信用風險和最佳化投資組合所需的資料。HPC 提供的運算能力透過即時洞見來改善資料分析。

汽車產業

高效能運算是汽車產業內運算流體動力學、材料測試和碰撞模擬測試的重要技術。HPC 提供快速的原型設計和設計的即時最佳化,並有助於模擬工廠工作流程。HPC 也是自動駕駛汽車和以電腦視覺為基礎的即時決策中的核心技術。

網路安全

網路管理員可使用高效能運算分析流量,以此偵測異常並在潛在威脅發生之前識別它們。HPC 還提供用於加密、系統範圍評估和即時威脅消除的運算資源。

HPC 如何運作?

高效能運算彙總多台個別伺服器、電腦或工作站的運算能力,以提供更強大的解決方案。許多節點共同工作的過程稱為平行運算。此系統中的每台個別機器都稱為節點,其中許多節點聚集在一起形成叢集。系統中的每個節點都負責管理不同的任務,並且所有節點平行工作以提高處理速度。

叢集節點

HPC 解決方案包括幾種節點類型

  • 控制器節點在更廣泛的叢集系統中協調工作。
  • 工作節點或運算節點執行任何處理。
  • 互動節點或登入節點可讓使用者透過命令列或 GUI 連線至 HPC 系統。

HPC 叢集可以是異質的 (每個節點提供不同的硬體),也可以是同質的 (每個節點具有相似的效能容量)。

HPC 叢集結構

有兩種主要的 HPC 叢集結構。

叢集運算

叢集運算也稱為平行運算,是指一組叢集在相似的位置共同執行相似的功能。此結構透過採用相似的網路拓撲和物理距離來最大限度地減少節點之間的延遲。

分散式運算

分散式運算可以使用位於類似位置或分佈在全球範圍內的叢集。此叢集格式可以利用內部部署硬體與雲端資源,為 HPC 提供更靈活且可擴展的方法。 

HPC 作業如何運作?

HPC 系統執行兩種不同類型的程序,分別稱為鬆散耦合的工作負載和緊耦合的工作負載。

鬆散耦合的工作負載

鬆散耦合的工作負載是 HPC 系統獨立於系統內可能平行發生的其他功能完成的任務。許多獨立任務會同時發生,因此這種形式的 HPC 處理有時稱為平行工作負載作業。

例如,轉譯視訊時,每個影格都會作為不同的任務執行。雖然轉譯影格的每個節點都可以利用相同的儲存,但其完成任務的能力不取決於完成其任務的任何其他節點。

緊耦合的工作負載

緊耦合的工作負載是相互依賴以完成整體作業的 HPC 處理任務。這些工作負載使用叢集的已分享記憶體和儲存,在叢集中的所有節點之間分享資訊,協助每個節點同時完成其任務。緊耦合的工作負載通常需要即時協調,其中許多節點致力於提供小部分資訊以完成更大規模的任務。例如,每個節點可能負責模擬天氣預報中不同的物理成分,並且需要結合所有節點的資訊來轉譯最終的天氣預報。

什麼是雲端中的 HPC?

雲端中的高效能運算可讓企業在不管理其所使用 HPC 叢集的情況下利用 HPC 解決方案。無需建構昂貴的內部部署資料中心,雲端 HPC 是一種經濟高效的解決方案,可為企業提供所需的可擴展運算能力。

三種融合趨勢加速了 HPC 雲端服務的擴展。

低延遲 RDMA 聯網

遠端直接記憶體存取 (RDMA) 的使用支援網路節點存取記憶體,而無需使用其作業系統。這種方法可確保一個節點可以與另一個節點進行互動而不會中斷其程序,從而消除程序中的瓶頸,最大限度地減少延遲,並且盡可能提高輸送量。

雲端運算需求增加

由於 HPC 的使用案例廣泛,不同產業中的許多企業目前都需要 HPC 服務。雲端中的 HPC 可讓這些公司在不建立自己的資料中心的情況下存取 HPC 服務,從而使這項技術更易於存取。

AI 廣泛使用

HPC 雲端服務需求日益增加的另一個原因是 AI 和機器學習軟體的廣泛使用。生成式 AI 工具需要大量的運算能力,HPC 為這些系統提供運算資源和可擴展性。對於希望使用企業規模 AI 工具的企業來說,HPC 是有效的解決方案。

雲端中的 HPC 有哪些優勢?

在雲端中執行 HPC 有幾點優勢。

統一和遠端管理

每個 HPC 專案都有獨特的基礎設施要求。自行購買會將組織限制在其可以投資的少數幾個選定組態上。然而,HPC 雲端可讓組織根據專案的需要選擇和結合儲存、運算、聯網和登入節點、GPU 和工作站的各種組態。組織可以使用管理主控台從中央位置與所有這些系統進行互動。這可簡化工作流程並自動化叢集功能,從而提高便利性。

動態資源佈建和擴展

高效能雲端運算系統可讓企業動態擴展運算資源用量,同時輕鬆縱向擴展或縮減以滿足需求。這種靈活性可提高效率並最佳化資源用量。

受管更新

透過雲端運算供應商管理的 HPC 工作負載會自動發佈更新,讓您的系統保持最新狀態。這種方法可確保您的 HPC 解決方案始終保持最新狀態,並提供最有效的服務。

靈活使用自訂應用程式

企業可以將應用程式帶到雲端供應商處。他們可以自訂作業系統和預先安裝的軟體,以滿足特定工作負載要求。

AWS 如何支援您的 HPC 要求?

AWS HPC 全受管服務可讓您透過幾乎無限的 HPC 雲端基礎設施來加速創新。例如

  • AWS Parallel Computing Service 提供全受管的服務,您可以使用該服務建置完整的彈性環境,以託管您的高效能運算工作負載。
  • AWS ParallelCluster 是多合一的開放原始碼叢集管理工具,可簡化 AWS 上的 HPC 叢集管理。
  • Amazon Elastic Fabric Adapter 可協助使用者按需要的規模執行 HPC 和 ML 應用程式,並且提供擴展至數千個 GPU 或 CPU 的能力。
  • Amazon DCV 是一種遠端顯示通訊協定,可協助客戶以安全的方式在各種網路條件下交付遠端桌面和應用程式串流。

立即建立免費帳戶,開始在 AWS 上進行高效能運算。