香港 — 2024 年 12 月 12 日 — Amazon Web Services(AWS)在 2024 re:Invent 全球大會上,宣布推出一系列全新數據中心組件,旨在支援新一代人工智能(AI)創新並滿足客戶與日俱增的需求。AWS 透過在電力、冷卻和硬件設計等方面的一系列創新,構建更節能的數據中心,為客戶的未來創新奠定基礎。AWS 將在全球新推出的數據中心配備這些新組件,而現有的數據中心已部署大部分關鍵組件。
AWS 基礎設施服務副總裁 Prasad Kalyanaraman 表示:「AWS 透過持續推動基礎設施創新,致力為全球客戶構建性能卓越、可靠、安全且可持續發展的雲端服務。這些數據中心的新功能,包括能源效益方面的提升以及對新興工作負載的靈活支援,成為我們在雲端運算領域的里程碑。更令人振奮的是,這些功能均採用模組化設計,讓我們能為現有的基礎設施進行升級改造,實現液體冷卻並提高能源效益,
不僅為應用生成式 AI 提供強大的動力,而且能減少碳足跡。」
AWS 擁有 18 年構建大規模數據中心的豐富經驗,以及 13 年為 AI 工作負載提供基於 GPU 的伺服器的經驗。目前,AWS 的數據中心為全球數百萬名活躍客戶提供服務,包括數十萬名使用 AWS AI 和機器學習服務的客戶,以及全球數萬名使用 Amazon Bedrock 構建生成式 AI 應用程式的客戶。隨著生成式 AI 日益普及,以及客戶對 GPU 容量需求不斷提升,AWS 將不斷調整和優化數據中心,以支援更高的功率密度。主要的升級包括:
1. 簡化電力和機械設計,提高可用度
AWS 一直致力為客戶提供最可靠的基礎設施。簡化的電力和機械設計更可靠,並易於維護,確保客戶。能持續享有 AWS 一直以來高度可靠的服務。
AWS 數據中心的最新優化設計,包括簡化的電力配送和機械系統,不僅讓基礎建設達到 99.9999% 可用度,更將受到潛在電力問題影響的機架減少 89%。
在 AWS 的數據中心內,電力供應需經過多重轉換及配送過程才能抵達 IT 設備。這個流程中的每個步驟都伴隨著效率降低、能源消耗,以及潛在的故障風險。AWS 簡化電力配送系統,減少潛在故障點的數量 20%。其他簡化設計包括將備用電源更緊密地整合至機架附近,並減少排熱風扇的數量。AWS 利用自然壓差排出熱空氣,提高了伺服器的可用電力。改善後的設計顯著降低整體能源損耗,同時降低故障風險。
2. 創新冷卻、機架設計和控制系統
AWS 推出一系列新功能及強化功能,致力於為客戶提供高效能、高可用度及能源效益卓越的基礎設施。AWS 數據中心的創新設計包括:
- 液體冷卻:新型的 AI 伺服器將受惠於液體冷卻技術,能更有效地應付高密度運算晶片的冷卻需求。AWS 開發一項先進的機械冷卻解決方案 — 在新建及現有的數據中心配置「液體到晶片」冷卻系統。一些 AWS 技術利用不需要的液體冷卻網路和儲存基礎設施,讓更新後的冷卻系統能無縫地整合空氣和液體冷卻功能,用於支援包括如 Amazon Trainium2 的強大 AI 晶片系列,NVIDIA GB200 NVL72 等機架級 AI 超級運算解決方案,以及 AWS 網絡交換機和儲存伺服器。無論客戶是運行傳統工作負載還是 AI 模型,這種靈活的多模式冷卻設計確保 AWS 以最低的成本為客戶提供最佳的性能和效率。這種獨特的液體冷卻機架設計由 AWS 與領先的晶片製造商合作開發,旨在加快 AI 工作負載的上架時間。
- 支援高密度 AI 工作負載:AWS 透過優化數據中心的機架配置,最大程度上提高電力的使用效率。AWS 透過由數據和生成式 AI 驅動的軟件,能夠精確預測伺服器的最佳部署方式。AWS 將減少電力浪費 — 包括閒置以及未充分使用的能源,從而更有效地運用現有的能源。
這項設計旨在滿足 AI 工作負載對新一代硬件和高密度機架配置的需求,同時保持充足的靈活性,適配其他硬件的廣泛需求。AWS 基礎設施為客戶提供廣泛且深入的運算執行個體選擇,現已提供超過 750種 Amazon Elastic Cloud Compute (Amazon EC2) 執行個體,讓客戶能為幾乎所有工作負載選擇最合適的處理器、儲存、網絡、作業系統以及購買方案。除了靈活的多模式冷卻設計外,AWS 在電力輸送系統的工程上也實現突破,讓 AWS 在未來兩年內能將機架功率密度提升 6 倍,更有望在未來進一步提升3 倍。這項突破受惠於應用全新電源架構,新電源架構能有效地分配整個機架的電力,顯著降低電力轉換過程中的損耗。
總括而言,這些創新讓 AWS 每個據點能為客戶的工作負載額外提供 12% 的運算能力。這項更新意味著在提供同等運算能力的前提下,所需的數據中心數量將會減少。
- 控制系統升級:由 Amazon 自主研發的全新控制系統已應用於 AWS 的電力及機械設備,標準化監控、警報及營運流程。例如,AWS 內部構建的遙測工具運用 AWS 的技術,能提供即時診斷及故障排除服務,這些服務協助客戶維持最佳的運作狀態。此外,AWS 在提升控制系統冗餘度的同時,亦簡化系統,讓 AWS 基礎設施的設計可用度達到 99.9999%。
3. 提升能源效益及推動可持續發展:機械能源損耗降低 46%,混凝土碳含量減少 35%
多年來,AWS 在推動基礎設施能源效益與可持續發展方面一直領先業界。據研究顯示,AWS 的基礎設施效能比企業自家建設的基礎設施高 4.1 倍,透過在 AWS 上優化工作負載,相關的碳足跡能減少最多 99%。在 2023 年,AWS 已提前達成營運所需電力 100% 來自可再生能源的目標,較原定的 2030
年提前七年。
AWS 持續評估數據中心的運作,透過不斷創新提升基礎設施的能源使用效率。新組件在能源效益和可持續發展方面的提升包括:
- 更高效能的冷卻系統,在冷卻需求的高峰,預計比上一代的設計降低高達 46% 的機械能源損耗,且每兆瓦的用水量維持不變。設計改進包括全新的單邊冷卻系統、減少卻設備數量以及引入液體冷卻功能。
- 降低數據中心外殼的混凝土碳排放量,較業界平均水平減少最多 35%。AWS 採用了低碳鋼和低碳混凝土的規格,並透過優化結構設計來減少整體鋼材使用量。
- 備用發電機改用可再生柴油,這種可生物降解且無毒的燃料,較傳統化石柴油的生命週期溫室氣體排放量可減少高達 90%。AWS 已開始在歐洲和美國的數據中心推廣使用可再生柴油作為備用發電機的燃料。
NVIDIA 超大規模及高性能運算部門副總裁 Ian Buck 表示:「隨著對 AI 的需求不斷增加,數據中心亦必須與時並進。透過採用先進的液體冷卻解決方案,我們不僅能夠高效地冷卻 AI 基礎設施,還能顯著降低能源損耗。我們與 AWS 在液體冷卻機架設計方面的合作,將讓客戶能以卓越的性能和效率運行高強度的 AI 工作負載。」
Anthropic 運算部門的傑出工程師 James Bradbury 表示:「在 Anthropic,我們致力於開發領先的基礎模型,而安全、高性能且節能的基礎設施正是我們成功的關鍵。AWS 致力於構建先進的數據中心,是我們選擇 AWS 作為主要雲端服務供應商和模型訓練合作夥伴的重要原因之一。AWS 的創新設計顯著提升了基礎設施的安全性、可擴展性和效率,為 AI 模型的運作和創新提供了堅實的基礎。」
AWS 將在全球基礎設施部署數據中心的新組件,覆蓋全球 34 個區域、108 個可用區,以及如 Amazon Local Zones 等其他基礎設施。配備完整新型組件的 AWS 數據中心預計將於 2025 年初在美國率先投入運作。
如欲了解更多關於 AWS 基礎設施的資訊,請瀏覽 https://aws.amazon.com/about-aws/globalinfrastructure/。
自2006 年來,Amazon Web Services 一直在提供世界上服務最豐富、應用廣泛的雲端服務。AWS 為客戶提供超過200 種功能全面的雲端服務,包括運算、儲存、數據庫、網絡、分析、機器學習與人工智能、物聯網、流動、安全、混合雲、虛擬和擴增實境(VR 和AR)、媒體,以及應用開發、部署和管理等方面,遍及31 個地理區域內的99 個可用區域(Availability Zones),並已公佈計畫在加拿大、以色列、馬來西亞、紐西蘭和泰國建立5 個AWS 地理區域、15 個可用區域。AWS 的服務獲得全球超過百萬客戶的信任,包括發展迅速的初創公司、大型企業和政府機構。通過AWS 的服務,客戶能夠有效強化自身基礎設施,提高營運上的彈性與應變能力,同時降低成本。欲了解更多有關AWS 的資訊,請瀏覽: aws.amazon.com 。
Start using the AWS Asia Pacific (Hong Kong) Region
We are just one click away to help you with your burning questions.