Amazon Elastic Compute Cloud (EC2) Trn1 執行個體採用 AWS Trainium 晶片,專為生成式 AI 模型的高效能深度學習 (DL) 訓練打造,包括大型語言模型 (LLM) 和潛在擴散模型。與其他同類 Amazon EC2 執行個體相比,Trn1 執行個體可節省高達 50% 的訓練成本。 您可使用 Trn1 執行個體在各種應用程式中訓練 100B+ 參數 DL 和生成式 AI 模型,例如文字摘要、程式碼產生、問題解答、影像和影片產生、建議,以及詐騙偵測。
AWS Neuron SDK 可協助開發人員在 AWS Trainium 上訓練模型 (並在 AWS Inferentia 晶片上部署模型)。其與 PyTorch 和 TensorFlow 等架構原生整合,因此您可以繼續使用現有的程式碼和工作流程,在 Trn1 執行個體上訓練模型。若要了解目前 Neuron 對機器學習 (ML) 架構和程式庫、模型架構和硬體優化的支援,請瀏覽 Neuron 文件。
Trn1n 執行個體現已推出
Trn1n 執行個體將網路頻寬 (與 Trn1 執行個體相比) 增加一倍,支援 1600 Gbps 的 Elastic Fabric Adapter (EFAv2)。相對於 Trn1,增加的頻寬可為訓練網路密集型生成式 AI 模型 (例如大型語言模型 (LLM) 和混合專家 (MoE) 等) 提供縮短高達 20% 的訓練時間。
優勢
減少 100B+ 參數模型的訓練時間
Trn1 執行個體專為高效能 DL 而打造,可將訓練時間從幾個月縮短到幾週甚至幾天。藉由縮短訓練時間,您可以更快地進行迭代,打造更具創新性的模型,並提高生產力。 對於受益於增加網路頻寬的模型,Trn1n 執行個體的訓練時間比 Trn1 執行個體最高提升 20%。
降低您的微調和訓練前費用
Trn1 執行個體提供高效能,同時與其他同類 Amazon EC2 執行個體相比,可節省高達 50% 的訓練成本。
使用現有的 ML 架構和程式庫
使用 AWS Neuron SDK 擷取 Trn1 執行個體的完整效能。藉助 Neuron,您可以使用 PyTorch 和 TensorFlow 等熱門 ML 架構,並繼續使用現有的程式碼和工作流程,在 Trn1 執行個體上訓練模型。若要快速開始使用 Trn1 執行個體,請參閱 Neuron 文件中的熱門模型範例。
使用 EC2 UltraClusters 最高可縱向擴展至 6 EFLOPS
Trn1 執行個體最高可支援 800 Gbps 的第二代 Elastic Fabric Adapter (EFAv2) 網路頻寬。Trn1n 執行個體支援高達 1,600 Gbps 的 EFAv2 網路頻寬,為需要網路密集型模型帶來更高的效能。兩種執行個體均部署在 EC2 UltraClusters 中,支援擴展到 30,000 個 Trainium 晶片,後者與非阻欄式 PB 級網路互連,可提供 6 EFLOPS 的運算效能。
運作方式
-
使用 AWS DLAMI
-
使用 Amazon EKS
-
使用 Amazon ECS
-
使用 Amazon SageMaker
-
使用 AWS DLAMI
-
使用 Amazon EKS
-
使用 Amazon ECS
-
使用 Amazon SageMaker
功能
使用 AWS Trainium 最多可提升 3 PFLOPS
Trn1 執行個體採用多達 16 顆 AWS Trainium 晶片,專為加速 DL 訓練而打造,並提供高達 3 PFLOPS 的 FP16/BF16 運算能力。每顆晶片包含兩個第二代 NeuronCore。
高達 512 GB 的高頻寬加速器記憶體
為支援高效的資料和模型平行處理,每個 Trn1 執行個體都具有 512 GB 的共用加速器記憶體 (HBM),總記憶體頻寬為 9.8 TB。
高效能網路與儲存
為了支援網路密集型模型的訓練,例如混合專家 (MoE) 和產生型預先訓練轉換器 (GPT),每個 Trn1n 執行個體可提供高達 1600 Gbps 的 EFAv2 網路頻寬。每個 Trn1 執行個體最高可支援 800 Gbps 的 EFAv2 頻寬。 相較於第一代 EFA,EFAv2 可提供多達 50% 的集體通訊效能改善,從而加速分散式訓練。這些執行個體還支援高達 80 Gbps 的 Amazon Elastic Block Store (Amazon EBS) 頻寬和高達 8 TB 的本機 NVMe 固態硬碟 (SSD) 儲存,用於快速存取大型資料集的工作負載。
NeuronLink 互連
為實現 Trainium 晶片之間的快速連線和精簡的集體通訊,Trn1 執行個體支援高達 768 GB/s 的 NeuronLink,這是一種高速、無阻塞的互連功能。
針對新穎的資料類型進行最佳化
為提供高效能,同時達到準確度目標,Trn1 執行個體已針對 FP32、TF32、BF16、FP16、UINT8,以及新的可設定 FP8 (cFP8) 資料類型進行最佳化。
最先進的 DL 最佳化
為支援 DL 創新和產生型 AI 的快速步伐,Trn1 執行個體具有多項創新功能,可讓其變得靈活且可擴充,以訓練不斷發展的 DL 模型。Trn1 執行個體針對動態輸入形狀提供硬體最佳化和軟體支援。為了將來支援新的運算子,他們支援以 C ++ 編寫的自訂運算子。這些執行個體還支援隨機舍入,這是一種概率舍入方式,相較於傳統舍入模式可實現高效能和更高的精度。
客戶
![](https://d1.awsstatic.com/customer-references-case-studies-logos/customer-pages_logos/Databricks_Logo.4a498a498c4cd90fa4f59412973ced31ae489965.png)
「成千上萬的客戶已在 AWS 上實作 Databricks,讓他們能夠使用 MosaicML 針對各種使用案例,預先訓練、微調和提供基礎模型。AWS Trainium 為我們提供訓練 Mosaic MPT 模型所需的規模和高效能,而且成本低廉。在我們訓練新一代 Mosaic MPT 模型時,Trainium2 能夠更快速地建置模型,讓我們能夠為客戶提供前所未有的規模和效能,以便他們可以更快地將自己的生成式 AI 應用程序帶到市場。」
Databricks 生成式 AI 副總裁 Naveen Rao
![](https://d1.awsstatic.com/customer-references-case-studies-logos/customer-pages_logos/Stockmark_Logo.cf0dc6639eb8e846301f6f01ed609f56ca1ee5de.png)
「憑藉採用 AWS Trainium 晶片的 16 節點 Amazon EC2 Trn1 執行個體,我們已開發並發佈 stockmark-13b,這是一款具有 130 億個參數的大型語言模型,並在日本 220B 代幣庫上從頭開始進行預先訓練。該庫包括截至 2023 年 9 月的最新商業域文字。相較於其他同等模型,該模型在 JGLUE (日語通用語言理解評估) 基準上獲得最高的 JSQUAD 分 (0.813)。可在 Hugging Face Hub 獲得該模型,並且可在 MIT 授權下做為商業用途使用。相較於同等 GPU 執行個體,Trn1 執行個體協助我們降低了 20% 的訓練成本。」
Stockmark Co., Ltd. 技術長 Kosuke Arima
![](https://d1.awsstatic.com/logos/customers/jp/ricoh_250x169.a034683d11acc7212b4ebbef53672749844c67e5.png)
RICOH 數位技術開發中心總監 Yoshiaki Umetsu
![Helixon Helixon](https://d1.awsstatic.com/product-marketing/ec2/helixon_logo1.00e29994ba17c7d4c012de47e9f1bfb918896416.png)
「在 HeliXon,我們為基於蛋白質的療法打造下一代人工智慧解決方案。我們的目標是開發人工智慧工具,讓科學家能破譯蛋白質功能和相互作用,查詢大規模基因組資料集以進行標靶辨識,並設計抗體和細胞療法等療法。如今,我們使用訓練分佈式程式庫 (如 FSDP) 在許多基於 GPU 的伺服器上對模型進行平行訓練,但是訓練單個模型還是需要數週時間。我們很高興能利用 AWS 中具有最高網路頻寬 (800 Gbps) 的 Amazon EC2 Trn1 執行個體來提高分佈式訓練任務的效能,減少模型訓練時間,同時降低訓練成本。」
Helixon 執行長 Jian Peng
![Money Forward Money Forward](https://d1.awsstatic.com/product-marketing/ec2/MoneyForward_logo.ee3c3e897e0f72240777e3560bc7b8389f74089e.png)
Money Forward, Inc. 為企業和個人提供開放和公平的金融平台。
「我們在 Amazon EC2 Inf1 執行個體上推出了大規模 AI 聊天機器人服務,與基於 GPU 的同類執行個體相比,推論延遲降低了 97%,同時還降低了成本。由於我們會定期微調量身定製的 NLP 模型,因此減少模型訓練時間和成本也很重要。根據我們在 Inf1 執行個體上成功遷移推論工作負載的經驗,以及在採用 AWS Trainium 的 EC2 Trn1 執行個體上的初步工作,我們預期 Trn1 執行個體將在提高端對端機器學習效能和成本方面帶來額外價值。」
Money Forward, Inc. 技術長 Takuya Nakade
![Magic Magic](https://d1.awsstatic.com/product-marketing/ec2/Magic_logo.9c0291202281cbe50c5caea7b9d50ab3474157c0.png)
Magic 是綜合性產品和研究公司,正致力於開發就像同事一樣的人工智慧,好讓世界變得更有生產力。
「訓練基於自動廻歸變換器的大型模型是我們工作的重要一環。採用 AWS Trainium 的 Trn1 執行個體專為這些工作負載而設計,可提供近乎無限的可擴展性、快速的節點間聯網,以及對 16 位元和 8 位元資料類型的進階支援。Trn1 執行個體將幫助我們以更低成本,更快地訓練大型模型。我們對 Trainium 中對 BF16 隨機四捨五入的原生支援感到特別興奮,此功能可提高效能,同時數值準確度與完整精準度並無區別。」
Magic 聯合創辦人暨執行長 Eric Steinberger
![Cactus Cactus](https://d1.awsstatic.com/CactusLogo.8b8ca0f19e37ed8176947a23e3418c0bf0aa6d61.png)
CACTUS 為研究人員和組織提供了一套產品和解決方案,能改善研究獲得資金、發表、交流和發現的方式。
「在 Cactus Labs,我們利用人工智慧的力量,研究重點是自然語言處理、排名和推薦、對話式人工智慧、大型語言模型、電腦視覺、擴增實境/虛擬實境 (AR/VR) 和 可解釋人工智慧 (XAI)。我們希望能更快地訓練機器學習模型,並讓我們的研究人員能在管理基礎設施成本的同時進行更多實驗,因此我們很高興對 AWS Trainium 進行評估。AWS Trainium 的開箱即用功能,如 XLA 優化、多工作者資料平行訓練和圖形快取等,可以減少我們的訓練時間,幫助我們更快、更便宜地運行更多實驗。」
Cactus Communications 技術長暨新興產品主管 Nishchay Shah
![Watashiha Watashiha](https://d1.awsstatic.com/product-marketing/ec2/watashiha_logo.805d38aa26cb7af759af715a675650ea43af7367.jpg)
Watashiha 提供創新的互動式 AI 聊天機器人服務 “OGIRI AI”,該服務融合了幽默感,在現場提供有趣的問題答案。
「我們使用大型語言模型來融合幽默感,並在我們的 AI 服務上為客戶提供更相關和對話式體驗。這需要我們經常預先訓練和微調這些模型。我們善用張量和資料平行處理,在 EC2 Trn1.32xlarge 執行個體上預先訓練以 GPT 為基礎的日文模型。相較於我們之前的 GPU 型基礎設施,訓練在 28 天內即可完成,且成本降低了 33%。隨著模型的複雜性持續快速增加,我們有望將 Trn1n 執行個體的網路頻寬增加至 Trn1 的兩倍,以加速對大型模型的訓練。」
Watashiha, K.K. 技術長 Yohei Kobashi
合作夥伴
![PyTorch PyTorch](https://d1.awsstatic.com/logos/partners/pytorch-logo-600x400.2560360867c1eb4cba593aebe81840c961b271ce.png)
「在 PyTorch,我們加快了將機器學習從研究原型設計轉向生產的速度,為客戶做好準備。我們與 AWS 團隊進行了廣泛合作,為採用 AWS Trainium 的全新 Amazon EC2 Trn1 執行個體提供原生 PyTorch 支援,而這些執行個體是專為訓練深度學習模型而打造。建立 PyTorch 模型的開發人員只需最少的程式碼更改即可開始在 Trn1 執行個體上進行訓練。此外,我們還與 OpenXLA 社區合作,啟用 PyTorch 分佈式程式庫,以便輕鬆地將模型從基於 GPU 的執行個體遷移到 Trn1 執行個體。Trn1 執行個體為 PyTorch 社區帶來的創新讓我們興奮不己,包括更高效的資料類型、動態形狀、自訂運算子、硬體優化的隨機捨入和即時偵錯模式。這一切都讓 Trn1 非常適合 PyTorch 開發人員的廣泛採用,我們期待未來共同為 PyTorch 做出貢獻,以進一步優化訓練效能。」
PyTorch 應用 AI 工程經理 Geeta Chauhan
![Hugging Face 標誌 Hugging Face 標誌](https://d1.awsstatic.com/products/EC2/inf2/hugging_face_logo.1c5c6a955afa0377a53130fb4e9d6569a0a7ee1a.png)
「Hgging Face 的使命是將出色的 ML 大眾化,協助世界各地的機器學習開發人員解決現實世界的問題。而關鍵在於確保最新和最出色的模型,在雲端的最佳 ML 晶片上盡可能快速高效地執行。我們對 Inferentia2 的潛力感到非常振奮,這將成為大規模部署生成式 AI 模型的新標準方式。憑藉 Inf1,我們發現比傳統 GPU 型執行個體最高可降低 70% 的成本,而且使用 Inf2,相較於 Inferentia1,我們看到類似 BERT 的轉換器延遲最高可減少 8 倍。藉助 Inferentia2,我們的社群將能夠以 100B 以上的參數規模輕鬆地將此效能擴展至 LLM,以及擴展至最新的擴散和電腦視覺模型。」
使用 Trn1 執行個體的 Amazon 服務
![Amazon Amazon](https://d1.awsstatic.com/pdp-customer-logos/Amazon_Logo%20(2)1.1d9aadc21e2c942dc72b3d1c0b2d4ec9139595ad.png)
Amazon 的產品搜尋引擎每天為數十億種產品編制索引,為數十億客戶查詢提供服務,並且是世界上最多人使用的服務之一。
「我們正在訓練大型語言模型 (LLM),這些模型包括多模式 (文字+影像)、多語言、多地區、預先接受過多個任務訓練、跨多個實體 (產品、查詢、品牌、評論等),以改善客戶的購物體驗。與其他加速機器學習解決方案相比,Trn1 執行個體可提供最佳的效能功耗比,從而為訓練大型語言模型提供了更永續的方式,並以最低成本為我們提供了高效能。我們計劃探索新的可設定 FP8 資料類型和硬體加速隨機四捨五入,以進一步提升訓練效率和開發速度。」
Amazon Search 副總裁 Trishul Chilimbi
入門
使用 Amazon SageMaker
您可以使用 Amazon SageMaker,輕鬆地在 Trn1 執行個體上訓練模型。顯著減少訓練和調整 ML 模型的時間和成本,而無需管理基礎設施。藉助 SageMaker,您可以使用內建工具來管理和追蹤訓練實驗、自動選擇最佳超參數、偵錯訓練任務,以及監控系統資源的使用。
使用 AWS Deep Learning AMI
使用 AWS Deep Learning Container
產品詳細資訊
執行個體大小 | Trainium 晶片 |
加速器 記憶體 (GB) |
vCPU | 執行個體 記憶體 (GiB) |
本機 NVMe 儲存 (TB) |
網路 頻寬 (Gbps) |
EFA 和 RDMA 支援 |
EBS 頻寬 (Gbps) |
隨需 每小時價格 |
1 年 預留 執行個體 有效率 每小時* |
3 年 預留 執行個體 有效率 每小時* |
trn1.2xlarge | 1 | 32 | 8 | 32 | 0.5 | 最多 12.5 | 否 | 最多 20 | 1.34 USD | 0.79 USD | 0.4744 USD |
trn1.32xlarge | 16 | 512 | 128 | 512 | 8 | 800 | 是 | 80 | 21.50 USD | 12.60 USD | 7.59 USD |
trn1n.32xlarge |
16 | 512 | 128 | 512 | 8 | 1600 | 是 | 80 | 24.78 USD | 14.52 USD | 8.59 USD |