Amazon EC2 Inf2 執行個體

在 Amazon EC2 中以最低成本提供高效能，適用於生成式 AI 推論

Amazon Elastic Compute Cloud (Amazon EC2) Inf2 執行個體專為深度學習 (DL) 推論而打造。這些執行個體針對產生型人工智慧 (AI) 模型，在 Amazon EC2 中以最低成本提供高效能，包括大型語言模型 (LLM) 和視覺轉換器。您可以使用 Inf2 執行個體來執行推論應用程式，進行文字摘要、程式碼產生、影片和影像產生、語音辨識、個人化、詐騙偵測等等。

Inf2 執行個體採用第二代 AWS Inferentia 加速器，AWS Inferentia2。Inf2 執行個體可提升 3 倍的運算效能、4 倍的加速器總記憶體、最高 4 倍的輸送量，以及最多可降低 10 倍的延遲，從而提升 Inf1 的效能。Inf2 執行個體是 Amazon EC2 中的首個推論最佳化執行個體，可透過加速器之間的超高速連線，支援橫向擴展分散式推論。您現在可在 Inf2 執行個體的多個加速器中，以高效率且符合成本效益的方式部署具有數千億個參數的模型。

AWS Neuron SDK 可協助開發人員在 AWS Inferentia 加速器上部署模型 (並在 AWS Trainium 加速器上對其進行訓練)。其與 PyTorch 和 TensorFlow 等架構原生整合，因此您可以繼續使用現有的工作流程和應用程式的程式碼，並在 Inf2 執行個體上執行。

運作方式

使用 AWS DLAMI
使用 Amazon EKS
使用 Amazon ECS
使用 Amazon SageMaker

使用 AWS DLAMI
該圖表顯示使用 AWS Deep Learning AMI (DLAMI) 部署 Amazon EC2 Inf2 執行個體的工作流程。

第一欄包括垂直堆疊的兩個區段。上方的第一個區段包括方塊中分組的下列使用者應用程式：AWS Command Line Interface (CLI)、AWS 工具和開發套件，以及 AWS Cloud Control API。以下區段包括 AWS 管理主控台。

第一欄中的第一個區段有一個指向火箭發射的箭頭，其下方包含以下文字：「使用 AWS CLI、SDK 或 API 自動啟動 DLAMI。」第一欄中的第二個區段有一個箭頭，指向火箭發射，其中包含以下文本：「透過主控台啟動 DLAMI。」

兩個火箭圖示都有一個共用的箭頭，指向代表 Amazon EC2 Inf2 執行個體的方塊。

在 Inf2 執行個體方塊的右側，有一個代表 DLAMI 的方塊。此 DLAMI 方塊使用以下文字周圍的方塊進行分組：「本機終端」、「EC2 遠端終端」和「應用程式指令碼」。這三個項目包括一個指向 DLAMI 方塊的箭頭。DLAMI 方塊則有一個箭頭指向 Inf2 執行個體方塊。

按一下以放大
使用 Amazon EKS
該圖表顯示建立 Kubernetes 叢集、為叢集部署 Amazon EC2 Inf2 執行個體，以及在 Kubernetes 上執行推論應用程式的工作流程。

第一個方塊代表 Amazon Elastic Kubernetes Service (Amazon EKS)，並包括以下文字：「建立 Kubernetes 叢集 (採用 Amazon EKS Distro 技術)。」

Amazon EC2 Inf2 執行個體的箭頭從第一個方塊指向第二個方塊。此方塊包括以下文字：「為您的 EKS 叢集部署 Inf2 工作節點。」

箭頭從第二個方塊指向最後一個項目，並包括以下文字：「在 Kubernetes 上執行您的推論應用程式。」

按一下以放大
使用 Amazon ECS
該圖表顯示使用 AWS Deep Learning Container 搭配 Amazon Elastic Container Service (Amazon ECS) 部署 Amazon EC2 Inf2 執行個體的工作流程。

第一個方塊代表 Amazon Elastic Container Registry (Amazon ECR)。其中包括以下文字：「使用 ECR 或任何其他儲存庫建置映像和存放區。」

箭頭從此方塊指向 Amazon ECS 的一個方塊。

箭頭從此方塊指向一個項目，其中包括以下文字：「選取應用程式的深度學習容器影像。」

箭頭從此資訊指向 Amazon EC2 Inf2 執行個體方塊。此方塊包括以下文字：「在 Inf2 上部署推論工作負載。」

箭頭從此方塊指向一個項目，其中包括以下文字：「使用 Amazon ECS 管理容器。」

按一下以放大
使用 Amazon SageMaker
該圖表顯示使用存放在 Amazon Simple Storage Service (Amazon S3) 儲存貯體中的模型成品和 Amazon ECR 容器映像搭配 Amazon SageMaker 在 Inf2 執行個體上部署推論的工作流程。

第一個群組包括兩個垂直堆疊的方塊。上方的第一個方塊用於 Amazon S3 並包括以下文字：「存放在 S3 儲存貯體中的模型成品。」其下的第二個方塊用於 Amazon Elastic Container Registry (Amazon ECR)，並包括以下文字：「容器圖像。」

此第一個群組有一個箭頭指向 Amazon SageMaker。此項目與包括以下工作流程資訊的方塊組合在一起：

第一個方塊是以下文字：「建立 SageMaker 模型。」箭頭從此項目指向 Amazon EC2 Inf2 執行個體的方塊，其中包括以下文字：「選擇 Inf2 做為您的 SageMaker 推論選項 (ml.inf2)。」下一個箭頭從此方塊指向以下文字：「設定、建立和呼叫 SageMaker 端點以取得推論。」

按一下以放大

優勢

大規模部署 100B 以上參數的生成式 AI 模型

Inf2 執行個體是 Amazon EC2 中首個支援大規模分散式推論的推論最佳化執行個體。您現在可在加速器之間利用超高速連線能力，在 Inf2 執行個體的多個加速器中，以高效率部署具有數千億個參數的模型。

提升效能，同時大幅降低推論成本

Inf2 執行個體旨在以最低成本在 Amazon EC2 中為您的 DL 部署提供高效能。相較於 Amazon EC2 Inf1 執行個體，Inf2 執行個體提供最高 4 倍的輸送量和最多低 10 倍的延遲。 Inf2 執行個體比其他類似的 Amazon EC2 執行個體提升 40% 的價格效能。

使用現有的 ML 架構和程式庫

使用 AWS Neuron SDK 擷取 Inf2 執行個體的完整效能。藉助 Neuron，您可以使用 PyTorch 和 TensorFlow 等現有架構，並針對 Hugging Face 等熱門儲存庫中的模型獲得最佳的現成效能。Neuron 支援執行期與 TorchServe 和 TensorFlow Serving 等服務工具整合。此外，其還使用內建設定檔和偵錯工具 (如 Neuron-Top) 協助最佳化效能，並整合至 TensorBoard 等熱門視覺化工具中。

利用節能解決方案達成您的永續發展目標

Inf2 執行個體比其他類似的 Amazon EC2 執行個體提升最高 50% 的每瓦效能比。這些執行個體和基礎 Inferentia2 加速器使用進階的晶片製程，以及憑藉軟硬體最佳化，在大規模執行 DL 模型時提供高能源效率。使用 Inf2 執行個體協助您在部署超大型模型時，實現永續發展目標。

功能

使用 AWS Inferentia2 時，最多可達 2.3 PFLOPS

Inf2 執行個體由最多 12 個 AWS Inferentia2 加速器提供支援，並透過與超高速 NeuronLink 連線，簡化集體通訊。相較於 Inf1 執行個體，Inf2 執行個體提供最高 2.3 PFLOPS 的運算，以及高達 4 倍的輸送量和低 10 倍的延遲。

最高 384 GB 的高頻寬加速器記憶體

為了容納大型 DL 模型，Inf2 執行個體提供最高 384 GB 的共用加速器記憶體 (每個 Inferentia2 加速器中有 32 GB HBM，比第一代推論大 4 倍)，且總記憶體頻寬為 9.8 TB (比第一代推論快 10 倍)。

NeuronLink 互連

為了在加速器之間進行快速通訊，Inf2 執行個體支援 192 GB/s 的 NeuronLink，這是一種高速、非阻攔式互連。Inf2 是唯一提供此互連的推論最佳化執行個體，這項功能僅適用於較昂貴的執行個體訓練。針對不適合單一加速器的超大型模型，資料會直接在具有 NeuronLink 的加速器之間流動，完全略過 CPU。藉助 NeuronLink，Inf2 可支援更快的分散式推論，並改善輸送量和延遲。

針對具有自動轉換的新型資料類型進行最佳化

Inferentia2 支援 FP32、TF32、BF16、FP16、UINT8，以及新的可設定 FP8 (cFP8) 資料類型。AWS Neuron 可採用高精度 FP32 和 FP16 模型，並自動將其轉換為精度較低的資料類型，同時最佳化準確性和效能。自動轉換可減少對低精確度重新訓練的需求，並以較小的資料類型實現更高效能的推論，從而縮短上市時間。

最先進的 DL 最佳化

為了支援 DL 創新的快速步伐，Inf2 執行個體具有多項創新功能，可讓其變得靈活且可擴充，以部署不斷發展的 DL 模型。Inf2 執行個體針對動態輸入形狀提供硬體最佳化和軟體支援。為了將來支援新的運算子，他們支援以 C ++ 編寫的自訂運算子。Inf2 執行個體還支援隨機舍入，這是一種概率舍入方式，相較於傳統舍入模式可實現高效能和更高的精度。

產品詳細資訊

執行個體大小	Inferentia2 加速器	加速器記憶體 (GB)	vCPU	記憶體 (GiB)	本機儲存	加速器間互連	網路頻寬 (Gbps)	EBS 頻寬 (Gbps)	隨需價格	一年預留執行個體	三年預留執行個體
inf2.xlarge	1	32	4	16	僅 EBS	無	最多 15	最多 10	0.76 美元	0.45 美元	0.30 美元
inf2.8xlarge	1	32	32	128	僅 EBS	無	最多 25	10	1.97 美元	1.81 美元	0.79 美元
inf2.24xlarge	6	192	96	384	僅 EBS	是	50	30	6.49 美元	3.89 美元	2.60 美元
inf2.48xlarge	12	384	192	768	僅 EBS	是	100	60	12.98 美元	7.79 美元	5.19 美元

客戶見證

「Leonardo 的團隊善用生成式 AI，讓創意專業人士和愛好者能夠以無與倫比的品質、速度和風格一致性來製作視覺資產。AWS Inf2 的價格與效能︰利用 AWS Inf2，我們能夠在不犧牲效能的情況下降低 80% 的成本，從根本上變革我們可為客戶提供的價值建議，以更易實現的價格來啟用我們最進階的功能。這也緩解了我們的輔助 AI 服務在成本和容量可用性方面的擔憂，這些服務隨著我們的成長和擴展而變得日益重要。對我們而言，這是一項關鍵的支援技術，隨著我們不斷推動生成式 AI 的可能性，為我們的使用者帶來創造力和表現力的新時代。」

Leonardo.ai 的 AI 主管 Pete Werner

「在 Runway，我們的 AI Magic 工具套件讓我們的使用者能夠以前所未有的方式產生和編輯內容。我們一直在擴大建立 AI 支援內容可能的界限，而隨著 AI 模型變得越來越複雜，大規模執行這些模型的基礎設施成本可能會變得昂貴。透過我們結合運用採用 AWS Inferentia 技術的 Amazon EC2 Inf2 執行個體，我們能夠執行部分模型，其輸送量比同類 GPU 執行個體最高可提升 2 倍。這種高效能、低成本的推論讓我們能夠引入更多功能、部署更複雜的模型，並最終為使用 Runway 的數百萬創作者提供更出色的體驗。」

Runway 聯合創辦人兼執行長 Cristóbal Valenzuela

Qualtrics 設計並開發體驗成熟的管理軟體。

「在 Qualtrics，我們專注於建置能夠縮小客戶、員工、品牌和產品體驗差距的技術。為實現這一目標，我們正在開發複雜的多任務、多模態 DL 模型以推出新功能，例如文字分類、序列標記、話語分析、關鍵片語擷取、主題擷取、叢集和端到端對話理解。隨著我們在更多應用程式中採用這些更複雜的模型，非結構化資料量也在增長，我們需要效能更高的推論最佳化解決方案來滿足這些需求，例如 Inf2 執行個體，以便為我們的客戶提供最佳體驗。對於新推出的 Inf2 執行個體，我們激動不已，因為其不僅讓我們能夠實現更高的輸送量，同時顯著降低延遲，而且還引入了分散式推論和增強的動態輸入形狀支援等功能，隨著我們進一步採用更大、更複雜的大型模型，這有助於我們進行擴展以滿足部署需求。」

Qualtrics 核心機器學習主管 Aaron Colak

Finch Computing 是一間自然語言技術公司，為政府、金融服務和資料整合商客戶提供人工智慧應用程式。

「為滿足客戶對即時自然語言處理的需求，我們開發了最先進的 DL 模型，這可擴展至大型生產工作負載。我們必須提供低延遲交易並實現高輸送量，來處理全球資料饋送。我們已經將許多生產工作負載遷移至 Inf1 執行個體，並且與 GPU 相比成本降低了 80%。現在，我們正在開發更大、更複雜的模型，以便從書面文字中獲得更深刻、更富洞察力的含義。我們的許多客戶需要即時存取這些洞察，Inf2 執行個體的效能有助於我們提供比 Inf1 執行個體更低的延遲和更高的輸送量。憑藉 Inf2 效能改善和全新的 Inf2 功能，例如支援動態輸入大小，我們正在提高成本效率，提升即時客戶體驗，並協助我們的客戶從其資料中收集新的洞察。」

Finch Computing 首席架構師 Franz Weckesser

Money Forward, Inc. 為企業和個人提供開放和公平的金融平台。Money Forward 集團公司 HiTTO Inc. 提供人工智慧聊天機器人服務，作為該平台的一部分，該服務使用定製的自然語言處理 (NLP) 模型來滿足其企業客戶的多樣化需求。

「我們在 Amazon EC2 Inf1 執行個體上推出了大規模 AI 聊天機器人服務，與基於 GPU 的同類執行個體相比，推論延遲降低了 97%，同時還降低了成本。我們很高興看到 Amazon EC2 Inf2 執行個體的初始測試結果有進一步的效能改善。使用相同的自訂 NLP 模型，相較於 Inf1，AWS Inf2 能夠減少 10 倍的延遲時間。隨著我們轉移至數十億個更大型的參數模型，Inf2 讓我們有信心可以繼續為客戶提供卓越的端對端使用者體驗。」

Money Forward Inc. 技術長 Takuya Nakade

「在 Fileread.ai，我們正在建置解決方案，以便讓您的文件互動，就像詢問他們問題一樣簡單，讓使用者能夠從所有文件中找到所需的內容，並更快地獲得正確的資訊。自從切換至新的 Inf2 EC2 執行個體之後，我們看到 NLP 推論功能得到顯著改善。單單成本節省就改變了我們的遊戲規則，讓我們能夠在不犧牲品質的情況下更有效地分配資源。我們將推論延遲降低 33%，同時將輸送量增加 50%，讓我們的客戶享受更快的周轉速度。與舊版 G5 執行個體相比，Inf2 的速度和效能讓我們的團隊感到震驚，顯然，這是未來部署 NLP 模型的需求。」

Fileread 執行長 Daniel Hu

「在 Yaraku，我們的使命是建置基礎設施，以協助人們跨越語言障礙進行溝通。從專業譯者到單語翻譯人員，我們的旗艦產品 YarakuZen 讓任何人都能自信地翻譯和後期編輯文字和文件。為了支援此程序，我們提供以 DL 模型為基礎的各種精密工具，涵蓋翻譯、雙文字對齊、句子分割、語言建模等任務。透過使用 Inf1 執行個體，我們能夠加速服務以滿足不斷增長的需求，同時與 GPU 型執行個體相比，推論成本降低了 50% 以上。我們現在正進入新一代大型模型的開發，這些模型需要 Inf2 執行個體的增強功能才能滿足需求，同時保持低延遲。憑藉 Inf2，我們能夠將模型縱向擴展 10 倍，同時保持類似的輸送量，從而使我們能夠為客戶提供更高水準的品質。」

Yaraku 的 NLP 主管 Giovanni Giacomo

AWS 合作夥伴見證

「Hgging Face 的使命是將出色的 ML 大眾化，協助世界各地的機器學習開發人員解決現實世界的問題。而關鍵在於確保最新和最出色的模型，在雲端的最佳 ML 加速器上儘可能快速高效地執行。我們對 Inferentia2 的潛力感到非常振奮，這將成為大規模部署產生型 AI 模型的新標準方式。憑藉 Inf1，我們發現比傳統 GPU 型執行個體最高可降低 70% 的成本，而且使用 Inf2，相較於 Inferentia1，我們看到類似 BERT 的轉換器延遲最高可減少 8 倍。藉助 Inferentia2，我們的社群將能夠以 100B 以上的參數規模輕鬆地將此效能擴展至 LLM，以及擴展至最新的擴散和電腦視覺模型。」

「PyTorch 加速了 ML 開發人員從研究原型開發到生產部署的過程。我們已經與 AWS 團隊合作，為採用全新 AWS Inferentia2 技術的 Amazon EC2 Inf2 執行個體提供原生 PyTorch 支援。隨著越來越多的社群成員希望部署大型產生型 AI 模型，我們很高興能夠與 AWS 團隊合作，利用加速器之間的高速 NeuronLink 連線來最佳化 Inf2 執行個體上的分散式推論。有了 Inf2，使用 PyTorch 的開發人員現在可輕鬆部署超大型的 LLM 和視覺轉換器模型。此外，Inf2 執行個體還為 PyTorch 開發人員帶來其他創新功能，包括高效的資料類型、動態形狀、自訂運算子以及硬體最佳化隨機捨入，因此非常適合 PyTorch 社群廣泛採用。」

「Weights & Biases (W&B) 為 ML 工程師和資料科學家提供各種開發人員工具，以更快速地建置更好的模型。W&B 平台為 ML 從業人員提供各種洞察，以改善模型效能，包括利用基礎運算基礎設施。我們已經與 AWS 團隊合作，在我們的系統指標儀表板中新增對 Amazon Trainium 和 Inferentia2 的支援，以便在模型實驗和訓練期間提供非常必要的寶貴資料。這讓 ML 從業人員能夠最佳化其模型，充分利用 AWS 專門建置的硬體，以更快速、更低的成本訓練模型。」

Weights & Biases (W&B) 產品副總裁 Phil Gurbacki

「OctoML 透過封裝其 DL 模型以在高效能硬體上執行，協助開發人員降低成本並建置可擴展的 AI 應用程式。過去幾年，我們一直在積累打造最佳軟硬體解決方案的專業知識，並將其整合至我們的平台中。我們紮根於晶片設計人員和系統駭客，因此 AWS Trainium 和 Inferentia 更讓我們驚喜不已。我們將這些加速器視為雲端 AI 創新未來的關鍵驅動因素。因為我們將熱門 LLM 的出現做為新一代 AI 應用程式的關鍵建置區塊，因此 Inf2 執行個體的正式推出非常及時。我們很高興能在我們的平台上提供這些執行個體，以協助開發人員輕鬆地充分利用其高效能和成本節省優勢。」

OctoML 技術長兼聯合創辦人 Jared Roesch

「LLM 的歷史性挑戰，以及企業級生成式 AI 應用程式的廣泛性挑戰，都是訓練和執行高效能 DL 模型的關聯成本。除了 AWS Trainium 外，AWS Inferentia2 還可免除客戶在需要高效能訓練時造成的財務妥協。如今，我們尋求訓練和推論優勢的客戶能夠以更低的成本，獲得更好的成效。Trinium 和 Inferentia 可加速擴展，以滿足當今最大型企業最苛刻的 DL 要求。許多執行大型 AI 工作負載的 Nextira 客戶，都能夠直接利用這些全新晶片組獲益，從而在成本節省和效能方面提高效率，並且更快地投入市場。」

Nextira 創辦人兼執行長 Jason Cutrer

使用 Amazon EC2 Inf2 執行個體的 Amazon 服務

Amazon CodeWhisperer 是 AI 編碼輔助工具，可在整合式開發環境 (IDE) 中產生即時的單行或全功能程式碼建議，以協助您快速建置軟體。

「有了 CodeWhisperer，我們使用產生型人工智慧模型來提供程式碼建議，進而改善軟體開發人員的生產效率。為了開發高效的程式碼建議，我們將 DL 網路擴展至數十億個參數。我們的客戶需要即時的程式碼建議，因此低延遲回應至關重要。大型產生型 AI 模型要求高效能運算，只需幾秒鐘即可提供回應時間。使用 Inf2，我們提供的延遲時間與針對大型輸入和輸出序列的訓練最佳化 GPU 執行個體執行 CodeWhisperer 產生的延遲時間相同。因此，Inf2 執行個體可協助我們節省成本和電力，同時為開發人員提供最佳體驗。」

Amazon CodeWhisperer 總經理 Doug Seven

Amazon 的產品搜尋引擎每天為數十億種產品編制索引，為數十億客戶查詢提供服務，並且是世界上最多人使用的服務之一。

「我非常高興看到 Inf2 的正式推出。Inf2 的卓越效能，以及處理具有數十億個參數的大型模型的能力，使其成為我們服務的完美選擇，並讓我們能夠在模型複雜性和準確性方面發揮新的可能性。憑藉 Inf2 提供的顯著加速和成本效益，將其整合至 Amazon Search 服務基礎設施中，可協助我們滿足客戶不斷增長的需求。我們計劃透過使用 Inf2 的產生型 LLM，來為我們的新購物體驗提供支援。」

Amazon Search 副總裁 Trishul Chilimbi

入門

使用 Amazon SageMaker

使用 Amazon SageMaker 能夠更輕鬆地在 Inf2 執行個體上部署模型，大幅降低部署機器學習模型的成本並提高效能，而無需管理基礎設施。SageMaker 是一項全受管服務，並與各種 MLOps 工具整合。因此，您可以擴展模型部署，在生產環境中更高效地管理模型，並減輕操作負擔。

使用 AWS Deep Learning AMI

AWS Deep Learning AMI (DLAMI) 為 DL 從業人員和研究人員提供基礎設施和各種工具，以加速雲端中各種規模的 DL 工作。AWS Neuron 驅動程式已在 DLAMI 中預先設定，以最佳方式在 Inf2 執行個體上部署您的 DL 模型。

使用 AWS Deep Learning Container

您目前可以在 Amazon Elastic Kubernetes Service (Amazon EKS) 上部署 Inf2 執行個體，這是一種全受管 Kubernetes 服務；也可以在 Amazon Elastic Container Service (Amazon ECS) 中部署，這是一種全受管容器協同運作服務。Neuron 也可以預先安裝在 AWS Deep Learning Container 中。若要了解有關在 Inf2 執行個體上執行容器的更多資訊，請參閱 Neuron 容器教學。

註冊 AWS 帳戶

立即存取 AWS 免費方案。

利用 10 分鐘教學了解

跟著簡單的教學課程一同探索並學習。

開始在主控台進行建置

運用逐步操作指南開始建置，協助您啟動 AWS 專案。