Amazon EC2 Inf2 執行個體

在 Amazon EC2 中以最低成本提供高效能,適用於最高要求的推論工作負載

Amazon Elastic Compute Cloud (Amazon EC2) Inf2 執行個體專為深度學習 (DL) 推論而打造。其設計旨在以最低成本在 Amazon EC2 中為您要求最嚴苛的 DL 應用程式提供高效能。您可以使用 Inf2 執行個體來執行推論應用程式,進行自然語言理解、語言翻譯、影片和影像產生、語音辨識、個人化、詐騙偵測等等。

Inf2 執行個體採用第二代 AWS Inferentia 加速器,AWS Inferentia2。相較於 Inf1 執行個體,Inf2 提供高 3 倍的運算效能、高 4 倍的加速器記憶體,以及最多高 4 倍的輸送量和最多低 10 倍的延遲。Inf2 執行個體經過最佳化,可大規模部署日益複雜的模型,例如大型語言模型 (LLM) 和視覺轉換器。Inf2 執行個體是 Amazon EC2 中的首個推論最佳化執行個體,可透過加速器之間的超高速連線,支援橫向擴展分散式推論。您現在可以高效地部署 175B 參數模型,以便在單一 Inf2 執行個體上跨多個加速器進行推論。對於較小的模型,Inf2 執行個體也提供比 Inf1 更具優勢的價格效能比。

AWS Neuron 是一個開發套件,可協助開發人員在 AWS Trainium 上訓練模型,並在 AWS Inferentia 加速器上部署模型。它與 PyTorch 和 TensorFlow 等架構原生整合,因此您只需幾行程式碼就能繼續使用現有的工作流程,並在 Inf2 執行個體上執行。

優勢

大規模部署 100B 以上的參數模型


Inf2 執行個體是 Amazon EC2 中首個推論最佳化執行個體,支援橫向擴展分散式推論,並在加速器之間提供超高速連線。您現在可以高效地部署 175B 參數模型,以便在單一 Inf2 執行個體上跨多個加速器進行推論。

提升效能,同時大幅降低推論成本

Inf2 執行個體旨在以最低成本在 Amazon EC2 中為您的 DL 部署提供高效能。相較於 Amazon EC2 Inf1 執行個體,Inf2 執行個體提供高達 4 倍的輸送量和最多低 10 倍的延遲。

享受原生支援 ML 架構和程式庫


AWS Neuron SDK 讓您只需要幾行程式碼,就能輕鬆擷取 Inf2 執行個體的完整效能。您可以藉由使用 Neuron SDK 在 Inf2 執行個體上執行應用程式,並繼續使用 PyTorch 和 TensorFlow 中現有的工作流程。

利用節能解決方案達成您的永續發展目標

相較於 Amazon EC2 中以 GPU 為基礎的執行個體,Inf2 執行個體提供高達 50% 的效能功耗比提升,因為這些執行個體和基礎 Inferentia2 加速器專為大規模執行 DL 模型而建置。Inf2 執行個體可協助您在部署超大型模型時,實現永續發展目標。

功能

使用 AWS Inferentia2 時,最多可達 2.3 PFLOPS

Inf2 執行個體由最多 12 個 AWS Inferentia2 加速器提供支援,並透過與超高速 NeuronLink 連線,簡化集體通訊。相較於 Inf1 執行個體,Inf2 執行個體提供高達 2.3 PFLOPS 的運算,以及高達 4 倍的輸送量和低 10 倍的延遲。

高達 384 GB 的高頻寬加速器記憶體

為了容納大型 DL 模型,Inf2 執行個體提供高達 384 GB 的共用加速器記憶體 (每個 Inferentia2 加速器為 32 GB HBM2e),總記憶體頻寬為 9.8 TB/秒。

為了在加速器之間進行快速通訊,Inf2 執行個體支援 NeuronLink,這是一種執行個體內超高速、非阻攔式互連。

藉由自動轉換支援 6 種資料類型

Inf2 執行個體具有對 FP32、TF32、BF16、FP16、UINT8 的完整堆疊支援,以及新的可設定 FP8 (cFP8) 資料類型。AWS Neuron 採用高精度 FP32 模型,並自動將其轉換為精度較低的資料類型,同時最佳化準確性和效能。自動轉換透過消除對低精度再訓練的需求,來縮短上市時間。

最先進的深度學習最佳化

Inf2 執行個體針對使用 C++ 編寫的動態輸入大小和自訂運算子提供硬體最佳化和軟體支援。Inf2 執行個體還支援隨機舍入,這是一種概率舍入方式,相較於傳統舍入模式可實現高效能和更高的精度。

產品詳細資訊

執行個體大小 Inferentia2 加速器 加速器
記憶體
(GB)
vCPU 記憶體
(GiB)
本機
儲存
加速器間
互連
網路
頻寬
(Gbps)
EBS
頻寬
(Gbps)
inf2.xlarge 1 32 4 16 僅 EBS 不適用 最多 15 最多 6.6
inf2.8xlarge 1 32 32 128 僅 EBS 不適用 最多 25 6.6
inf2.24xlarge 6 192 96 384 僅 EBS 50 20
inf2.48xlarge 12 384 192 768 僅 EBS 100 40

客戶見證

Qualtrics

Qualtrics 設計並開發體驗成熟的管理軟體。

「在 Qualtrics,我們專注於建置能夠縮小客戶、員工、品牌和產品體驗差距的技術。為實現這一目標,我們正在開發複雜的多任務、多模態深度學習模型以推出新功能,例如文字分類、序列標記、話語分析、關鍵片語擷取、主題擷取、叢集和端到端對話理解。隨著我們在更多應用程式中採用這些更複雜的模型,非結構化資料量也在增長,我們需要效能更高的推論最佳化解決方案來滿足這些需求,例如 Inf2 執行個體,以便為我們的客戶提供最佳體驗。對於新推出的 Inf2 執行個體,我們激動不已,因為它不僅讓我們能夠實現更高的輸送量,同時顯著降低延遲,而且還引入了分散式推論和增強式動態輸入形狀支援等功能,隨著我們進一步採用更大、更複雜的大型模型,這有助於我們進行擴展以滿足部署需求。」

Qualtrics 核心機器學習主管 Aaron Colak

Print

Finch Computing 是一間自然語言技術公司,為政府、金融服務和資料整合商客戶提供人工智慧應用程式。

「為滿足客戶對即時自然語言處理的需求,我們開發了最先進的深度學習模型,這可擴展至大型生產工作負載。我們必須提供低延遲交易並實現高輸送量,來處理全球資料饋送。我們已經將許多生產工作負載遷移至 Inf1 執行個體,並且與 GPU 相比成本降低了 80%。現在,我們正在開發更大、更複雜的模型,以便從書面文字中獲得更深刻、更富洞察力的含義。我們的許多客戶需要即時存取這些洞察,Inf2 執行個體的效能有助於我們提供比 Inf1 執行個體更低的延遲和更高的輸送量。憑藉 Inf2 效能改善和全新的 Inf2 功能,例如支援動態輸入大小,我們正在提高成本效率,提升即時客戶體驗,並協助我們的客戶從其資料中收集新的洞察。」

Finch Computing 首席架構師 Franz Weckesser

註冊 AWS 帳戶

註冊 AWS 帳戶

立即存取 AWS 免費方案

透過簡單教學了解

利用 10 分鐘教學了解

跟著簡單的教學課程一同探索並學習。

開始在主控台使用 EC2 進行建置

開始在主控台進行建置

運用逐步操作指南開始建置,協助您啟動 AWS 專案