- Amazon EC2›
- 執行個體類型›
- Inf2 執行個體
為什麼選擇 Amazon EC2 Inf2 執行個體?
Amazon Elastic Compute Cloud (Amazon EC2) Inf2 執行個體專為深度學習 (DL) 推論而打造。這些執行個體針對產生型人工智慧 (AI) 模型,在 Amazon EC2 中以最低成本提供高效能,包括大型語言模型 (LLM) 和視覺轉換器。您可以使用 Inf2 執行個體來執行推論應用程式,進行文字摘要、程式碼產生、影片和影像產生、語音辨識、個人化、詐騙偵測等等。
Inf2 執行個體採用第二代 AWS Inferentia 晶片,AWS Inferentia2。Inf2 執行個體可提升 3 倍的運算效能、4 倍的加速器總記憶體、最高 4 倍的輸送量,以及最多可降低 10 倍的延遲,從而提升 Inf1 的效能。Inf2 執行個體是 Amazon EC2 中的首個推論最佳化執行個體,可透過 Inferentia 晶片之間的超高速連線,支援橫向擴展分散式推論。您現在可在 Inf2 執行個體的多個晶片中,以高效率且符合成本效益的方式部署具有數千億個參數的模型。
AWS Neuron SDK 可協助開發人員在 AWS Inferentia 晶片上部署模型 (並在 AWS Trainium 晶片上對其進行訓練)。其與 PyTorch 和 TensorFlow 等架構原生整合,因此您可以繼續使用現有的工作流程和應用程式的程式碼,並在 Inf2 執行個體上執行。
優勢
Inf2 執行個體是 Amazon EC2 中首個支援大規模分散式推論的推論最佳化執行個體。您現在可在晶片之間利用超高速連線能力,在 Inf2 執行個體的多個 Inferentia 晶片中,以高效率部署具有數千億個參數的模型。
Inf2 執行個體旨在以最低成本在 Amazon EC2 中為您的 DL 部署提供高效能。相較於 Amazon EC2 Inf1 執行個體,Inf2 執行個體提供最高 4 倍的輸送量和最多低 10 倍的延遲。 Inf2 執行個體比其他類似的 Amazon EC2 執行個體提升 40% 的價格效能。
使用 AWS Neuron SDK 擷取 Inf2 執行個體的完整效能。藉助 Neuron,您可以使用 PyTorch 和 TensorFlow 等現有架構,並針對 Hugging Face 等熱門儲存庫中的模型獲得最佳的現成效能。Neuron 支援執行期與 TorchServe 和 TensorFlow Serving 等服務工具整合。此外,其還使用內建設定檔和偵錯工具 (如 Neuron-Top) 協助最佳化效能,並整合至 TensorBoard 等熱門視覺化工具中。
Inf2 執行個體比其他類似的 Amazon EC2 執行個體提升最高 50% 的每瓦效能比。這些執行個體和基礎 Inferentia2 晶片使用進階的晶片製程,以及憑藉軟硬體最佳化,在大規模執行 DL 模型時提供高能源效率。 使用 Inf2 執行個體協助您在部署超大型模型時,實現永續發展目標。
功能
Inf2 執行個體由最多 12 個 AWS Inferentia2 晶片提供支援,並透過與超高速 NeuronLink 連線,簡化集體通訊。相較於 Inf1 執行個體,Inf2 執行個體提供最高 2.3 PFLOPS 的運算,以及高達 4 倍的輸送量和低 10 倍的延遲。
為了容納大型 DL 模型,Inf2 執行個體提供最高 384 GB 的共用加速器記憶體 (每個 Inferentia2 晶片中有 32 GB HBM,比第一代推論大 4 倍),且總記憶體頻寬為 9.8 TB (比第一代推論快 10 倍)。
為了在 Inferentia2 晶片之間進行快速通訊,Inf2 執行個體支援 192 GB/s 的 NeuronLink,這是一種高速、非阻攔式互連。Inf2 是唯一提供此互連的推論最佳化執行個體,這項功能僅適用於較昂貴的執行個體訓練。針對不適合單一晶片的超大型模型,資料會直接在具有 NeuronLink 的晶片之間流動,完全略過 CPU。藉助 NeuronLink,Inf2 可支援更快的分散式推論,並改善輸送量和延遲。
Inferentia2 支援 FP32、TF32、BF16、FP16、UINT8,以及新的可設定 FP8 (cFP8) 資料類型。AWS Neuron 可採用高精度 FP32 和 FP16 模型,並自動將其轉換為精度較低的資料類型,同時最佳化準確性和效能。自動轉換可減少對低精確度重新訓練的需求,並以較小的資料類型實現更高效能的推論,從而縮短上市時間。
為了支援 DL 創新的快速步伐,Inf2 執行個體具有多項創新功能,可讓其變得靈活且可擴充,以部署不斷發展的 DL 模型。Inf2 執行個體針對動態輸入形狀提供硬體最佳化和軟體支援。為了將來支援新的運算子,他們支援以 C ++ 編寫的自訂運算子。Inf2 執行個體還支援隨機舍入,這是一種概率舍入方式,相較於傳統舍入模式可實現高效能和更高的精度。
產品詳細資訊
|
Instance Size
|
Inferentia2 Chips
|
Accelerator Memory (GB)
|
vCPU
|
Memory (GiB)
|
Local Storage
|
Inter-Chip Interconnect
|
Network Bandwidth (Gbps)
|
EBS Bandwidth (Gbps)
|
On-Demand Price
|
1-Year Reserved Instance
|
3-Year Reserved Instance
|
|---|---|---|---|---|---|---|---|---|---|---|---|
|
inf2.xlarge
|
1
|
32
|
4
|
16
|
僅 EBS
|
無
|
最多 15
|
最多 10
|
0.76 美元
|
0.45 美元
|
0.30 美元
|
|
inf2.8xlarge
|
1
|
32
|
32
|
128
|
僅 EBS
|
無
|
最多 25
|
10
|
1.97 美元
|
1.81 美元
|
0.79 美元
|
|
inf2.24xlarge
|
6
|
192
|
96
|
384
|
僅 EBS
|
是
|
50
|
30
|
6.49 美元
|
3.89 美元
|
2.60 美元
|
|
inf2.48xlarge
|
12
|
384
|
192
|
768
|
僅 EBS
|
是
|
100
|
60
|
12.98 美元
|
7.79 美元
|
5.19 美元
|
客戶和合作夥伴見證
以下是客戶和合作夥伴如何透過 Amazon EC2 Inf2 執行個體實現業務目標的範例。
Leonardo.ai
「Leonardo 的團隊利用生成人工智能,使創意專業人士和愛好者能夠以無與倫比的質量、速度和風格一致性製作視覺資產。AWS Inf2 的價格與效能︰利用 AWS Inf2,我們能夠在不犧牲效能的情況下降低 80% 的成本,從根本上變革我們可為客戶提供的價值建議,以更易實現的價格來啟用我們最進階的功能。這也緩解了我們的輔助 AI 服務在成本和容量可用性方面的擔憂,這些服務隨著我們的成長和擴展而變得日益重要。對我們來說,這是一項關鍵的支持技術,因為我們繼續推動生成人工智能可能的範圍,為我們的用戶創造創造力和表達力的新時代創造力。「
Leonardo.ai AI 主管 Pete Werner
跑道
「在 Runway,我們的 AI 魔術工具套件使我們的用戶能夠以前所未有的方式生成和編輯內容。我們一直在擴大建立 AI 支援內容可能的界限,而隨著 AI 模型變得越來越複雜,大規模執行這些模型的基礎設施成本可能會變得昂貴。透過我們結合運用採用 AWS Inferentia 技術的 Amazon EC2 Inf2 執行個體,我們能夠執行部分模型,其輸送量比同類 GPU 執行個體最高可提升 2 倍。這種高性能、低成本的推論使我們能夠引入更多功能、部署更複雜的模型,並最終為數百萬使用 Runway 的創作者提供更好的體驗。「
Runway 聯合創辦人兼執行長 Cristóbal Valenzuela
Qualtrics
Qualtrics 設計並開發體驗成熟的管理軟體。
「在 Qualtrics,我們的重點是打造技術,以彌補客戶,員工,品牌和產品的經驗差距。為實現這一目標,我們正在開發複雜的多任務、多模態 DL 模型以推出新功能,例如文字分類、序列標記、話語分析、關鍵片語擷取、主題擷取、叢集和端到端對話理解。隨著我們在更多應用程式中採用這些更複雜的模型,非結構化資料量也在增長,我們需要效能更高的推論最佳化解決方案來滿足這些需求,例如 Inf2 執行個體,以便為我們的客戶提供最佳體驗。我們對新的 Inf2 執行個體感到興奮,因為它不僅可以讓我們實現更高的傳輸量,同時大幅縮短延遲,還引入分散式推論和增強的動態輸入形狀支持等功能,這將幫助我們擴展以滿足部署需求,隨著我們推向更大、更複雜的大型模型。「
Qualtrics 核心機器學習主管 Aaron Colak
Finch Computing
Finch Computing 是一間自然語言技術公司,為政府、金融服務和資料整合商客戶提供人工智慧應用程式。
「為了滿足客戶對即時自然語言處理的需求,我們開發最先進的 DL 模型,可擴展到大型生產工作負載。我們必須提供低延遲交易並實現高輸送量,來處理全球資料饋送。我們已經將許多生產工作負載遷移至 Inf1 執行個體,並且與 GPU 相比成本降低了 80%。現在,我們正在開發更大、更複雜的模型,以便從書面文字中獲得更深刻、更富洞察力的含義。我們的許多客戶需要即時存取這些洞察,Inf2 執行個體的效能有助於我們提供比 Inf1 執行個體更低的延遲和更高的輸送量。借助 Inf2 效能改進和新的 Inf2 功能,例如對動態輸入大小的支持,我們正在提高成本效率,提高實時客戶體驗,並幫助客戶從他們的數據中獲得新的見解。「
Finch Computing 首席架構師 Franz Weckesser
金錢遠程股份有限公司
Money Forward, Inc. 為企業和個人提供開放和公平的金融平台。Money Forward 集團公司 HiTTO Inc. 提供人工智慧聊天機器人服務,作為該平台的一部分,該服務使用定製的自然語言處理 (NLP) 模型來滿足其企業客戶的多樣化需求。
「我們在 Amazon EC2 Inf1 執行個體上推出了大規模的 AI 聊天機器人服務,並且比較於類似 GPU 型執行個體的推論延遲降低 97%,同時降低成本。我們很高興看到 Amazon EC2 Inf2 執行個體的初始測試結果有進一步的效能改善。使用相同的自訂 NLP 模型,相較於 Inf1,AWS Inf2 能夠減少 10 倍的延遲時間。隨著我們轉向更大的數十億參數模型,Inf2 讓我們有信心,我們可以繼續為客戶提供卓越的端對端用戶體驗。「
Money Forward Inc. 技術長 Takuya Nakade
文件閱讀
「在 Fileread.ai,我們正在構建解決方案,使與您的文件互動一樣簡單,就像問他們問題一樣,使用者能夠從所有文檔中找到他們所需的內容,並更快地獲得正確的信息。自從切換至新的 Inf2 EC2 執行個體之後,我們看到 NLP 推論功能得到顯著改善。單單成本節省就改變了我們的遊戲規則,讓我們能夠在不犧牲品質的情況下更有效地分配資源。我們將推論延遲降低 33%,同時將輸送量增加 50%,讓我們的客戶享受更快的周轉速度。與較舊的 G5 執行個體相比,我們的團隊對 Inf2 的速度和性能感到驚訝,很明顯,這是未來部署 NLP 模型」
Fileread 執行長 Daniel Hu
亚拉库
「在 Yaraku,我們的使命是建立能夠幫助人們跨越語言障礙溝通的基礎架構。從專業譯者到單語翻譯人員,我們的旗艦產品 YarakuZen 讓任何人都能自信地翻譯和後期編輯文字和文件。為了支援此程序,我們提供以 DL 模型為基礎的各種精密工具,涵蓋翻譯、雙文字對齊、句子分割、語言建模等任務。透過使用 Inf1 執行個體,我們能夠加速服務以滿足不斷增長的需求,同時與 GPU 型執行個體相比,推論成本降低了 50% 以上。我們現在正進入新一代大型模型的開發,這些模型需要 Inf2 執行個體的增強功能才能滿足需求,同時保持低延遲。有了 Inf2,我們將能夠將機型擴展 10 倍,同時保持相似的輸送量,使我們能夠為客戶提供更高水平的質量。「
Yaraku NLP 主管 Giovanni Giacomo
Hugging Face
「Hugging Face 的使命是將良好的 ML 民主化,以幫助世界各地的 ML 開發人員解決現實世界的問題。而關鍵在於確保最新和最出色的模型,在雲端的最佳 ML 晶片上盡可能快速高效地執行。我們對 Inferentia2 的潛力感到非常振奮,這將成為大規模部署生成式 AI 模型的新標準方式。憑藉 Inf1,我們發現比傳統 GPU 型執行個體最高可降低 70% 的成本,而且使用 Inf2,相較於 Inferentia1,我們看到類似 BERT 的轉換器延遲最高可減少 8 倍。借助 Inferentia2,我們的社區將能夠輕鬆地將此效能擴展到 100B+ 參數規模的 LLM,以及最新的擴散和計算機視覺模型。「
PyTorch
「PyTorch 為 ML 開發人員加速從研究原型製作到生產部署的路徑。我們已經與 AWS 團隊合作,為採用全新 AWS Inferentia2 技術的 Amazon EC2 Inf2 執行個體提供原生 PyTorch 支援。隨著越來越多的社群成員希望部署大型生成式 AI 模型,我們很高興能夠與 AWS 團隊合作,利用晶片之間的高速 NeuronLink 連線來最佳化 Inf2 執行個體上的分散式推論。有了 Inf2,使用 PyTorch 的開發人員現在可輕鬆部署超大型的 LLM 和視覺變壓器模型。此外,Inf2 執行個體為 PyTorch 開發人員帶來了其他創新功能,包括高效的數據類型,動態形狀,自定義操作符和硬件最佳化的隨機四捨五入,使它們非常適合 PyTorch 社區廣泛採用。「
Nextira
「LLM 的歷史挑戰,以及更廣泛的企業級生成人工智慧應用程式,就是訓練和運行高效能 DL 模型相關的成本。除了 AWS Trainium 外,AWS Inferentia2 還可免除客戶在需要高效能訓練時造成的財務妥協。如今,我們尋求訓練和推論優勢的客戶能夠以更低的成本,獲得更好的成效。Trinium 和 Inferentia 可加速擴展,以滿足當今最大型企業最苛刻的 DL 要求。許多執行大型 AI 工作負載的 Nextira 客戶將從這些新晶片組直接受益,從而提高節省成本和效能的效率,並在其市場上取得更快的成果。「
Nextira 創辦人兼執行長 Jason Cutrer
Amazon CodeWhisperer
Amazon CodeWhisperer 是 AI 編碼輔助工具,可在整合式開發環境 (IDE) 中產生即時的單行或全功能程式碼建議,以協助您快速建置軟體。
「借助 CodeWhisperer,我們通過使用生成人工智能模型提供代碼建議來提高軟件開發人員的生產力。為了開發高效的程式碼建議,我們將 DL 網路擴展至數十億個參數。我們的客戶需要即時的程式碼建議,因此低延遲回應至關重要。大型產生型 AI 模型要求高效能運算,只需幾秒鐘即可提供回應時間。使用 Inf2,我們提供的延遲時間與針對大型輸入和輸出序列的訓練最佳化 GPU 執行個體執行 CodeWhisperer 產生的延遲時間相同。因此,Inf2 執行個體幫助我們節省成本和電力,同時為開發人員提供最佳體驗。「
Amazon CodeWhisperer 總經理 Doug Seven
亞馬遜搜索
Amazon 的產品搜尋引擎每天為數十億種產品編制索引,為數十億客戶查詢提供服務,並且是世界上最多人使用的服務之一。
「我對 Inf2 GA 發布感到非常興奮。Inf2 的卓越效能,以及處理具有數十億個參數的大型模型的能力,使其成為我們服務的完美選擇,並讓我們能夠在模型複雜性和準確性方面發揮新的可能性。憑藉 Inf2 提供的顯著加速和成本效益,將其整合至 Amazon Search 服務基礎設施中,可協助我們滿足客戶不斷增長的需求。我們計劃使用 Inf2 的生成型 LLM 來增強我們的新購物體驗。「
Amazon Search 副總裁 Trishul Chilimbi
入門
使用 Amazon SageMaker 能夠更輕鬆地在 Inf2 執行個體上部署模型,大幅降低部署機器學習模型的成本並提高效能,而無需管理基礎設施。SageMaker 是一項全受管服務,並與各種 MLOps 工具整合。因此,您可以擴展模型部署,在生產環境中更高效地管理模型,並減輕操作負擔。
AWS Deep Learning AMI (DLAMI) 為 DL 從業人員和研究人員提供基礎設施和各種工具,以加速雲端中各種規模的 DL 工作。AWS Neuron 驅動程式已在 DLAMI 中預先設定,以最佳方式在 Inf2 執行個體上部署您的 DL 模型。
您目前可以在 Amazon Elastic Kubernetes Service (Amazon EKS) 上部署 Inf2 執行個體,這是一種全受管 Kubernetes 服務;也可以在 Amazon Elastic Container Service (Amazon ECS) 中部署,這是一種全受管容器協同運作服務。Neuron 也可以預先安裝在 AWS Deep Learning Container 中。若要進一步了解如何在 Inf2 執行個體上執行容器,請參閱 Neuron 容器教學。