AWS 宣布 AWS Trainium2 執行個體正式可用
全新 Amazon EC2 Trn2 執行個體採用 AWS 最新的 Trainium2 AI 晶片,性價比較目前基於GPU 的 EC2 執行個體提升 30-40%。
全新 Amazon EC2 Trn2 UltraServers 採用 NeuronLink 超高速互連技術,將四個 Trn2 伺服器連接成一個大型伺服器,能夠在 AWS 上為超大規模模型提供超高速的訓練和推論。
【拉斯維加斯訊,2024年12月5日】亞馬遜(Amazon)旗下Amazon Web Services(AWS)在 2024 年 re:Invent 全球大會上,宣布基於 AWS Trainium2 的 Amazon Elastic Compute Cloud(Amazon EC2)Trn2 執行個體正式可用,並推出全新的Amazon EC2 Trn2 UltraServers,讓用戶以卓越的性價比訓練和部署最新的人工智慧(AI)模型,以及未來的大型語言模型(LLM)和基礎模型(FM)。此外,AWS 還揭露了新一代 AWS Trainium3 晶片的計畫。
AWS Trainium2 晶片
Amazon EC2 Trn2 UltraServers
Amazon EC2 Trn2 執行個體伺服器模組
· 與目前基於 GPU 的 EC2 P5e 和 P5en 執行個體相比,Amazon EC2 Trn2 執行個體的性價比提升 30-40%。它配備 16 個 Trainium2 晶片,可提供高達 20.8 Petaflops 浮點運算力的效能,非常適合訓練和部署具有數十億參數的大型語言模型。
· 全新推出的 Amazon EC2 Trn2 UltraServers 伺服器機型配備 64 個相互連接的 Trainium2 晶片,採用 NeuronLink 超高速互連技術,可提供高達 83.2 Petaflops 浮點運算力,其運算、記憶體和網路能力是單一執行個體的四倍,能夠支援訓練和部署超大規模的模型。
· AWS 攜手 Anthropic 正打造名為 Project Rainier 的 EC2 UltraCluster,使用數十萬顆 Trainium2 晶片,所達到的超級運算力比他們目前一代領先 AI 模型訓練所需運算力高出五倍以上。
· AWS 揭露了新一代 AI 晶片 Trainium3 的計畫,幫助客戶更快速地建構更大規模的模型,並在部署時提供更好的即時效能。
AWS 運算與網路服務副總裁 David Brown 表示:「AWS Trainium2 是專為支援大型、前沿的生成式 AI 工作負載而設計的,能夠滿足訓練和推論的需求,並在 AWS 上提供卓越的性價比。隨著模型參數接近萬億,我們意識到客戶需要一種創新的方法來高效訓練和運行規模龐大的工作負載。在 AWS 上,全新的 Amazon EC2 Trn2 UltraServers 提供超快速的訓練和推論效能,幫助各類企業以更快的速度和更低的成本訓練和部署世界上最大的模型。」
隨著模型規模的不斷擴大,客戶希望縮短訓練時間和推論延遲,這對運算和網路基礎設施提出了更高的要求。AWS 已提供廣泛的 Amazon EC2 加速執行個體選擇,包括基於 GPU 和機器學習晶片的執行個體。然而,即使是目前最快的加速執行個體,客戶仍希望實現更高的效能和更大的可擴展性,以更低的成本更快地訓練這些日益複雜的模型。隨著模型複雜性和資料量的增加,因為平行處理的限制,單純擴大叢集規模已無法有效縮短訓練時間。同時,即時推論的需求也超出了單執行個體架構的負載能力。
Amazon EC2 Trn2 執行個體為深度學習和生成式 AI 提供卓越效能
與目前基於 GPU 的 EC2 執行個體相比,Amazon EC2 Trn2 的性價比提升30% 至40%。單個Trn2 執行個體使用了 16 個 Trainium2 晶片,透過 NeuronLink 超快速高頻寬、低延遲的晶片之間的互連,可提供高達 20.8 Petaflops 浮點運算力,非常適合訓練和部署數十億參數的模型。
Amazon EC2 Trn2 UltraServers 滿足全球超大型模型日益增長的 AI 運算需求
對於需要更強運算力的超大型模型,Amazon EC2 Trn2 UltraServers 使客戶能夠突破單個 Trn2 執行個體的限制進行擴展,進而減少訓練時間,加快產品上市的速度,實現快速反覆運算以提高模型準確性。作為全新的 EC2 產品,Trn2 UltraServers 利 NeuronLink 超高速互連將四個 Trn2 伺服器連接為一個巨型伺服器。客戶透過全新 Trn2 UltraServers,可以在 64 個 Trainium2 晶片上擴展他們的生成式 AI 工作負載。在推論工作負載方面,客戶可以使用 Trn2 UltraServers 提升生產環境中萬億參數模型的即時推論效能。AWS 正在與 Anthropic 共同建構一個名為 Project Rainier 的 EC2 UltraCluster 運算叢集,該叢集由 Trn2 UltraServers 組成,能夠在數十萬個 Trainium2 晶片之間透過第三代低延遲的 PB 級 EFA 網路進行分散式模型訓練,其運算能力比 Anthropic 目前一代領先 AI 模型訓練所需運算力高出 5 倍以上。該專案完成後,預計將成為全球最大可用的 AI 運算叢集,供 Anthropic 建構和部署未來模型使用。
Anthropic 專注於 AI 安全和研究,致力於打造可靠、可判斷和可控的 AI 系統。Anthropic 的旗艦產品 Claude 是全球數百萬使用者信賴的大型語言模型。作為 Anthropic 與 AWS 深化合作的一部分,Anthropic 已開始優化 Claude 模型,以在亞馬遜最先進的 AI 硬體 Trainium2 上運行。Anthropic 將使用數十萬個 Trainium2 晶片,該規模是其之前叢集的五倍以上,為在 Amazon Bedrock 上使用 Claude 的客戶提供卓越的效能表現。
Databricks Mosaic AI 使企業能夠建構和部署高品質的代理系統。該系統基於資料湖原生架構,用戶可以輕鬆、安全地使用企業資料客製化模型,從而提供更準確和特定領域的輸出。受益於 Trainium 的高效能和成本效益,客戶能夠以較低的成本在 Mosaic AI 上擴展模型訓練。隨著全球客戶對 Mosaic AI 需求的不斷增長,Trainium2 的推出將為 Databricks 及其客戶帶來強大優勢。作為全球最大的資料和 AI 公司之一,Databricks 計畫使用 Trainium2 為客戶提供更好的效能,並將總體擁有成本(TCO)降低多達 30%。
Hugging Face 是全球領先的 AI 開發者開源平台,擁有超過 200 萬個模型、資料集和 AI 應用程式,其用戶社群涵蓋了超過 500 萬名研究人員、資料科學家、機器學習工程師和軟體開發人員。在過去幾年中,Hugging Face 與 AWS 合作,幫助開發人員透 Optimum Neuron 開源庫體驗 AWS Inferentia和AWS Trainium 的效能與成本優勢。該開源庫已整合到 Hugging Face Inference Endpoints 中,並在新的 HUGS 自行部署服務中進行了優化,用戶可以在 AWS Marketplace 使用。隨著 Trainium2 的發布,Hugging Face 用戶將享受更高的效能,進而更快地開發和部署模型。
poolside 致力於建構一個由 AI 驅動的世界,以推動有經濟價值的工作和科學進步。他們相信,軟體發展將成為神經網路中第一個達到人類智慧水準的重要能力。為此,poolside 正在打造基礎模型、API 和助理應用,以將生成式 AI 的優勢帶給開發者。而實現這一目標的關鍵在於他們建構和運行產品所用的基礎設施。借助 AWS Trainium2,poolside 的客戶將獲得優於其他 AI 加速器的性價比來擴展服務。此外,poolside 計畫使用 Amazon EC2 Trainium2 UltraServers 訓練未來的模型,這將比使用 Amazon EC2 P5 執行個體預計可節省 40% 的成本。
AWS Trainium3 晶片,專為新一代前沿生成式 AI 工作負載的高效能需求而設計
AWS 揭露了新一代 AI 訓練晶片 AWS Trainium3 的計畫。Trainium3 是 AWS 首款採用 3 奈米工藝製造的晶片,在效能、能效和密度上樹立了新標準。搭載 Trainium3 的 UltraServers 效能預計將是 Trn2 UltraServers 的四倍,使客戶在建構模型時能夠更快地反覆運算,並在部署時提供卓越的即時效能。首批基於 Trainium3 的執行個體預計將在 2025 年末上線。
AWS Neuron Software 助力客戶充分發揮 Trainium2 效能
AWS Neuron SDK 包括編譯器、執行庫和工具,幫助開發者優化模型以在 Trainium 上運行。它讓開發者具有在 Trainium 晶片上優化模型以獲得最佳效能的能力。它與 JAX 和 PyTorch 等熱門框架原生整合,使客戶在 Trainium 上使用現有程式碼和工作流程時只需進行少量程式碼修改。同時,Neuron 支援 Hugging Face 模型庫中超過10萬個模型。透過 Neuron Kernel Interface(NKI),開發人員可以直接使用裸機的 Trainium 晶片,編寫運算核心以最大限度地提升運算密集型工作負載的效能。
AWS Neuron 旨在簡化使用 JAX 等熱門框架在 Trainium2 上訓練和部署模型,同時儘量減少程式碼更改和對特定供應商解決方案的依賴。Google 支援 AWS 透過其原生的 OpenXLA 整合,使客戶能夠使用 JAX 進行大規模訓練和推論,提供簡單靈活的程式碼路徑,幫助使用者快速上手 Trn2 執行個體。隨著業界廣泛的開源合作,以及 Trainium2 的推出,Google 預計 JAX 在機器學習社群的應用將顯著增加,這將成為整個機器學習生態系統的重要里程碑。
目前,Amazon EC2 Trn2 執行個體在美國東部(俄亥俄)區域已正式可用,其他區域也即將推出。Amazon EC2 Trn2 UltraServers 目前可供預覽。
欲了解更多資訊,請至:
AWS News Blog,獲取更多詳細資訊。
AWS Trainium頁面,了解更多功能。
AWS Trainium客戶頁面,了解企業如何使用Trainium。
AWS re:Invent頁面,獲取關於AWS re:Invent活動的更多細節。
關於 Amazon Web Services
自2006年來,Amazon Web Services一直在提供世界上服務最豐富、應用廣泛的雲端服務。AWS不斷擴展可支持幾乎任何雲端工作負載的服務,為客戶提供超過240種功能全面的雲端服務,包括運算、儲存、資料庫、聯網、分析、機器學習與人工智慧、物聯網、行動、安全、混合雲、媒體,以及應用開發、部署和管理等方面,遍及33個地理區域內的105個可用區域(Availability Zones),並已公佈計畫在馬來西亞、墨西哥、紐西蘭、沙烏地阿拉伯和泰國等建立6個AWS地理區域、18個可用區域。全球超過百萬客戶信任AWS,包含發展迅速的新創公司、大型企業和政府機構。AWS協助客戶強化自身基礎設施,提高營運上的彈性與應變能力,同時降低成本。欲瞭解更多AWS的相關資訊,請至: aws.amazon.com。