- Amazon EC2›
- 執行個體類型›
- Trn1 執行個體
為何選擇 Amazon EC2 Trn1 執行個體?
Amazon Elastic 運算雲 (EC2) Trn1 執行個體採用 AWS Trainium 晶片提供支援,專為生成式 AI 模型的高效能深度學習 (DL) 訓練而打造,包括大型語言模型 (LLM) 和潛在擴散模型。與其他同類 Amazon EC2 執行個體相比,Trn1 執行個體可節省高達 50% 的訓練成本。 您可使用 Trn1 執行個體在各種應用程式中訓練 100B+ 參數 DL 和生成式 AI 模型,例如文字摘要、程式碼產生、問題解答、影像和影片產生、建議,以及詐騙偵測。
AWS Neuron SDK 可協助開發人員在 AWS Trainium 上訓練模型 (並在 AWS Inferentia 晶片上部署模型)。其與 PyTorch 和 TensorFlow 等架構原生整合,因此您可以繼續使用現有的程式碼和工作流程,在 Trn1 執行個體上訓練模型。若要瞭解目前對機器學習 (ML) 架構和程式庫、模型架構和硬體最佳化的 Neuron 支援,請參閱 Neuron 文件。
採用 AWS Trainium 技術的 Amazon EC2 Trn1 執行個體簡介
優勢
Trn1 執行個體專為高效能 DL 而打造,可將訓練時間從幾個月縮短到幾週甚至幾天。藉由縮短訓練時間,您可以更快地進行迭代,打造更具創新性的模型,並提高生產力。 對於受益於增加網路頻寬的模型,Trn1n 執行個體的訓練時間比 Trn1 執行個體最高提升 20%。
Trn1 執行個體提供高效能,同時與其他同類 Amazon EC2 執行個體相比,可節省高達 50% 的訓練成本。
使用 AWS Neuron SDK 擷取 Trn1 執行個體的完整效能。藉助 Neuron,您可以使用 PyTorch 和 TensorFlow 等熱門 ML 架構,並繼續使用現有的程式碼和工作流程,在 Trn1 執行個體上訓練模型。若要快速開始使用 Trn1 執行個體,請參閱 Neuron 文件中的熱門模型範例。
Trn1 執行個體最高可支援 800 Gbps 的第二代 Elastic Fabric Adapter (EFAv2) 網路頻寬。Trn1n 執行個體支援高達 1,600 Gbps 的 EFAv2 網路頻寬,為需要網路密集型模型帶來更高的效能。兩種執行個體均部署在 EC2 UltraClusters 中,支援擴展到 30,000 個 Trainium 晶片,後者與非阻欄式 PB 級網路互連,可提供 6 EFLOPS 的運算效能。
功能
Trn1 執行個體採用多達 16 顆 AWS Trainium 晶片,專為加速 DL 訓練而打造,並提供高達 3 PFLOPS 的 FP16/BF16 運算能力。每顆晶片包含兩個第二代 NeuronCore。
為支援高效的資料和模型平行處理,每個 Trn1 執行個體都具有 512 GB 的共用加速器記憶體 (HBM),總記憶體頻寬為 9.8 TB。
為了支援網路密集型模型的訓練,例如混合專家 (MoE) 和產生型預先訓練轉換器 (GPT),每個 Trn1n 執行個體可提供高達 1600 Gbps 的 EFAv2 網路頻寬。每個 Trn1 執行個體最高可支援 800 Gbps 的 EFAv2 頻寬。 相較於第一代 EFA,EFAv2 可提供多達 50% 的集體通訊效能改善,從而加速分散式訓練。這些執行個體還支援高達 80 Gbps 的 Amazon Elastic Block Store (Amazon EBS) 頻寬和高達 8 TB 的本機 NVMe 固態硬碟 (SSD) 儲存,用於快速存取大型資料集的工作負載。
為實現 Trainium 晶片之間的快速連線和精簡的集體通訊,Trn1 執行個體支援高達 768 GB/s 的 NeuronLink,這是一種高速、無阻塞的互連功能。
為提供高效能,同時達到準確度目標,Trn1 執行個體已針對 FP32、TF32、BF16、FP16、UINT8,以及新的可設定 FP8 (cFP8) 資料類型進行最佳化。為支援 DL 創新和產生型 AI 的快速步伐,Trn1 執行個體具有多項創新功能,可讓其變得靈活且可擴充,以訓練不斷發展的 DL 模型。Trn1 執行個體針對動態輸入形狀提供硬體最佳化和軟體支援。為了將來支援新的運算子,他們支援以 C ++ 編寫的自訂運算子。Inf2 執行個體還支援隨機舍入,這是一種概率舍入方式,相較於傳統舍入模式可實現高效能和更高的精度。
客戶和合作夥伴見證
以下是客戶和合作夥伴如何透過 Amazon EC2 Trn1 執行個體實現業務目標的範例。
Databricks
全球超過 10,000 個組織,包括 Comcast、Condé Nast 和超過 50% 的財富 500 強企業都依賴 Databricks 來統一其資料、分析和 AI。
「成千上萬的客戶已在 AWS 上實作 Databricks,讓他們能夠使用 MosaicML 預先訓練、微調和為各種使用案例提供基礎模型。AWS Trainium 為我們提供訓練 Mosaic MPT 模型所需的規模和高效能,而且成本低廉。在我們培訓下一代 Mosaic MPT 模型時,Trainium2 將使得更快地構建模型,使我們能夠為客戶提供前所未有的規模和效能,以便他們可以更快地將自己的生成人工智能應用程序帶到市場。「
Databricks 生成式 AI 副總裁 Naveen Rao
斯托克馬克股份有限公司
Stockmark 以「重塑價值創造機制和推進人類發展」為使命,透過提供尖端的自然語言處理技術,幫助眾多公司建立和打造創新業務。
「憑藉由 AWS Trainium 晶片提供支援的 16 個節點的 Amazon EC2 Trn1 執行個體,我們開發並發布 stockmark-13b,這是一款具有 13 億參數的大型語言模型,並在日本 220B 代幣庫上從頭開始進行預先訓練。該庫包括截至 2023 年 9 月的最新商業域文字。相較於其他同等模型,該模型在 JGLUE (日語通用語言理解評估) 基準上獲得最高的 JSQUAD 分 (0.813)。可在 Hugging Face Hub 獲得該模型,並且可在 MIT 授權下做為商業用途使用。與同等 GPU 執行個體相比,Trn1 執行個體幫助我們降低 20% 的訓練成本。「
Stockmark Co., Ltd. 技術長 Kosuke Arima
理科
RICOH 提供工作場所解決方案和數位轉型服務,旨在管理和最佳化跨企業的資訊流。
「移轉到 Trn1 實例非常簡單。我們能夠在短短 8 天內完成 130 億個參數模型的訓練。基於這一成功,我們期待在 Trainium 上開發和培訓 70B 參數模型,並對這些實例能夠更快、更具成本效益的培訓模型的潛力感到興奮。「
RICOH 數位技術開發中心總監 Yoshiaki Umetsu
螺旋線
「在 Helixon,我們為基於蛋白質的治療方案打造下一代人工智能解決方案。我們的目標是開發人工智慧工具,讓科學家能破譯蛋白質功能和相互作用,查詢大規模基因組資料集以進行標靶辨識,並設計抗體和細胞療法等療法。如今,我們使用訓練分佈式程式庫 (如 FSDP) 在許多基於 GPU 的伺服器上對模型進行平行訓練,但是訓練單個模型還是需要數週時間。我們很高興能利用 Amazon EC2 Trn1 執行個體,該執行個體具有 AWS 可用最高的網路頻寬 (800 Gbps),以提高分散式訓練工作的效能並縮短模型訓練時間,同時降低訓練成本。「
Helixon 執行長 Jian Peng
Money Forward, Inc.
Money Forward, Inc. 為企業和個人提供開放和公平的金融平台。
「我們在 Amazon EC2 Inf1 執行個體上推出了大規模的 AI 聊天機器人服務,並且比較於類似 GPU 型執行個體的推論延遲降低 97%,同時降低成本。由於我們會定期微調量身定製的 NLP 模型,因此減少模型訓練時間和成本也很重要。根據我們在 Inf1 執行個體上成功遷移推論工作負載的經驗,以及我們在 AWS Trainium 為基礎的 EC2 Trn1 執行個體的初始工作上所做的經驗,我們預期 Trn1 執行個體將在改善端對端機器學習效能和成本方面提供額外價值。「
Money Forward, Inc. 技術長 Takuya Nakade
Magic
Magic 是綜合性產品和研究公司,正致力於開發就像同事一樣的人工智慧,好讓世界變得更有生產力。
「培訓基於自動回歸變器的大型模型是我們工作的重要組成部分。採用 AWS Trainium 的 Trn1 執行個體專為這些工作負載而設計,可提供近乎無限的可擴展性、快速的節點間聯網,以及對 16 位元和 8 位元資料類型的進階支援。Trn1 執行個體將幫助我們以更低成本,更快地訓練大型模型。我們對 Trainium 中對 BF16 隨機四捨五入的原生支持特別興奮,提高性能,而數值準確度與完全精度無法區分。「
Magic 聯合創辦人暨執行長 Eric Steinberger
仙人掌通信
CACTUS 為研究人員和組織提供了一套產品和解決方案,能改善研究獲得資金、發表、交流和發現的方式。
「在 Cactus Labs,我們利用 AI 的力量,研究專注於自然語言處理,排名和推薦,對話式 AI,大型語言模型,計算機視覺,AR/VR 和 XAI。我們希望能更快地訓練機器學習模型,並讓我們的研究人員能在管理基礎設施成本的同時進行更多實驗,因此我們很高興對 AWS Trainium 進行評估。AWS Trainium 的開箱即用功能,例如 XLA 最佳化、多工作者資料平行培訓和圖形快取對我們來說非常有用,可以縮短訓練時間並幫助我們更快、更便宜地執行更多實驗。「
Cactus Communications 技術長暨新興產品主管 Nishchay Shah
Watashiha
Watashiha 提供創新的互動式 AI 聊天機器人服務 “OGIRI AI”,該服務融合了幽默感,在現場提供有趣的問題答案。
「我們使用大型語言模型結合幽默,並在我們的 AI 服務上為客戶提供更相關和對話體驗。這需要我們經常預先訓練和微調這些模型。我們善用張量和資料平行處理,在 EC2 Trn1.32xlarge 執行個體上預先訓練以 GPT 為基礎的日文模型。相較於我們之前的 GPU 型基礎設施,訓練在 28 天內即可完成,且成本降低了 33%。隨著我們的模型的複雜性持續迅速增加,我們期待 Trn1n 執行個體具有 Trn1 的兩倍網路頻寬,以加快更大型模型的訓練速度。「
Watashiha, K.K. 技術長 Yohei Kobashi
PyTorch
「在 PyTorch,我們加速將機器學習從研究原型製作到為客戶準備的生產。我們與 AWS 團隊進行了廣泛合作,為採用 AWS Trainium 的全新 Amazon EC2 Trn1 執行個體提供原生 PyTorch 支援,而這些執行個體是專為訓練深度學習模型而打造。建立 PyTorch 模型的開發人員只需最少的程式碼更改即可開始在 Trn1 執行個體上進行訓練。此外,我們還與 OpenXLA 社區合作,啟用 PyTorch 分佈式程式庫,以便輕鬆地將模型從基於 GPU 的執行個體遷移到 Trn1 執行個體。Trn1 執行個體為 PyTorch 社區帶來的創新讓我們興奮不己,包括更高效的資料類型、動態形狀、自訂運算子、硬體優化的隨機捨入和即時偵錯模式。所有這些都使 Trn1 非常適合 PyTorch 開發人員廣泛採用,我們期待未來對 PyTorch 的共同貢獻,以進一步優化培訓性能。「
PyTorch 應用 AI 工程經理 Geeta Chauhan
Hugging Face
「Hugging Face 的使命是將良好的 ML 民主化,以幫助世界各地的 ML 開發人員解決現實世界的問題。而關鍵在於確保最新和最出色的模型,在雲端的最佳 ML 晶片上盡可能快速高效地執行。我們對 Inferentia2 的潛力感到非常振奮,這將成為大規模部署生成式 AI 模型的新標準方式。憑藉 Inf1,我們發現比傳統 GPU 型執行個體最高可降低 70% 的成本,而且使用 Inf2,相較於 Inferentia1,我們看到類似 BERT 的轉換器延遲最高可減少 8 倍。借助 Inferentia2,我們的社區將能夠輕鬆地將此效能擴展到 100B+ 參數規模的 LLM,以及最新的擴散和計算機視覺模型。「
Amazon
「我們正在培訓多模式(文字 + 圖像),多語言,多語言語言模型(多語言),對多項任務進行預先訓練,並涵蓋多個實體(產品,查詢,品牌,評論等),以改善客戶的購物體驗。與其他加速機器學習解決方案相比,Trn1 執行個體可提供最佳的效能功耗比,從而為訓練大型語言模型提供了更永續的方式,並以最低成本為我們提供了高效能。我們計劃探索新的可配置 FP8 資料類型,以及硬體加速隨機四捨五入,以進一步提高我們的訓練效率和開發速度。「
Amazon Search 副總裁 Trishul Chilimbi
入門
您可以使用 Amazon SageMaker,輕鬆地在 Trn1 執行個體上訓練模型。顯著減少訓練和調整 ML 模型的時間和成本,而無需管理基礎設施。藉助 SageMaker,您可以使用內建工具來管理和追蹤訓練實驗、自動選擇最佳超參數、偵錯訓練任務,以及監控系統資源的使用。
AWS Deep Learning AMI (DLAMI) 為深度學習 (DL) 從業人員和研究人員提供基礎設施和各種工具,以在 AWS 上加速各種規模的 DL。AWS Neuron 驅動程式已在 DLAMI 中預先設定,可在 Trn1 執行個體上以最佳方式訓練 DL 模型。
您目前可以在 Amazon Elastic Kubernetes Service (EKS) 上部署 Trn1 執行個體,這是一種全受管 Kubernetes 服務;也可以在 Amazon Elastic Container Service (ECS) 中部署,這是一種全受管容器協同運作服務。Neuron 也可以預先安裝在 AWS Deep Learning Containers 中。若要了解有關在 Trn1 執行個體上執行容器的更多資訊,請參閱 Neuron 容器教學。
產品詳細資訊
|
Instance Size
|
Trainium Chips
|
Accelerator Memory (GB)
|
vCPUs
|
Instance Memory (GiB)
|
Local NVMe Storage (TB)
|
Network Bandwidth (Gbps)
|
EFA and RDMA Support
|
EBS Bandwidth (Gbps)
|
On-Demand Price per Hour
|
1-Year Reserved Instance Effective Hourly*
|
3-Year Reserved Instance Effective Hourly*
|
|---|---|---|---|---|---|---|---|---|---|---|---|
|
trn1.2xlarge
|
1
|
32
|
8
|
32
|
0.5
|
最多 12.5
|
否
|
最多 20
|
1.34 USD
|
0.79 USD
|
0.4744 USD
|
|
trn1.32xlarge
|
16
|
512
|
128
|
512
|
8
|
800
|
是
|
80
|
21.50 USD
|
12.60 USD
|
7.59 USD
|
|
trn1n.32xlarge
|
16
|
512
|
128
|
512
|
8
|
1600
|
是
|
80
|
24.78 USD
|
14.52 USD
|
8.59 USD
|