AWS Trainium

在降低成本同時提升深度學習和生成式 AI 訓練的高效能

為什麼選擇 Trainium?

AWS Trainium 晶片是 AWS 專為 AI 訓練和推論而建置的 AI 晶片系列,旨在於提供高效能的同時降低成本。

第一代 AWS Trainium 晶片為 Amazon Elastic Compute Cloud (Amazon EC2) Trn1 執行個體提供支援,其訓練成本比同類 Amazon EC2 執行個體降低高達 50%。許多客戶,包括 Databricks、Ricoh、NinjaTech AI 和 Arcee AI,正在實現 Trn1 執行個體的效能和成本效益。

AWS Trainium2 晶片的效能比第一代 Trainium 提升高達 4 倍。以 Trainium2 為基礎的 Amazon EC2 Trn2 執行個體專為生成式 AI 而建置,是用於訓練和部署具有數千億到數萬億以上參數的模型的最強大 EC2 執行個體。Trn2 執行個體的價格效能比目前一代 GPU 型 EC2 P5e 和 P5en 執行個體更好 30-40%。Trn2 執行個體配備 16 個 Trainium2 晶片,這些晶片透過 NeuronLink (我們專有的晶片間互連) 實現互連。您可以使用 Trn2 執行個體來訓練和部署要求最高的模型 (包括大型語言模型 (LLM)、多模態模型和擴散轉換器),以建置一組廣泛的下一代生成式 AI 應用程式。Trn2 UltraServer 是全新的 EC2 產品 (預覽版),非常適合需要比獨立 EC2 執行個體所能提供更多記憶體和記憶體頻寬的最大型模型。UltraServer 設計使用 NeuronLink 將四個 Trn2 執行個體中的 64 個 Trainium2 晶片連線至一個節點中,從而解鎖全新功能。對於推論而言,UltraServer 可協助提供業界領先的回應時間,進而創造出最佳的即時體驗。對於訓練而言,與獨立執行個體相比,UltraServers 會透過更快的協同通訊來提高模型平行性的模型訓練速度和效率。

您可以開始在 Trn2 和 Trn1 執行個體上訓練和部署模型,其中原生支援 PyTorch 和 JAX 等熱門機器學習 (ML) 架構。

Video Player is loading.
Current Time 0:00
Duration 1:24
Loaded: 0.00%
Stream Type LIVE
Remaining Time 1:24
 
1x
    • Chapters
    • descriptions off, selected

      優勢

      影片

      幕後探究 Amazon 的生成式 AI 基礎設施
      使用 AWS Trainium 加速 DL 和加快創新速度
      採用 AWS Trainium 技術的 Amazon EC2 Trn1 執行個體簡介