AWS AI 晶片

AWS Inferentia

在 Amazon EC2 中以最低成本獲得高效能，用於深度學習和生成式 AI 推論

為什麼選擇 Inferentia？

AWS Inferentia 晶片由 AWS 設計，可用於深度學習 (DL) 和生成式 AI 推論應用程式，在 Amazon EC2 中以最低成本提供高效能。

第一代 AWS Inferentia 晶片可支援 Amazon Elastic Compute Cloud (Amazon EC2) Inf1 執行個體，相較於同類 Amazon EC2 執行個體，Inf1 執行個體的輸送量提升多達 2.3 倍，每次推論成本降低多達 70%。許多客戶，包括 Finch AI、Sprinklr、Money Forward 和 Amazon Alexa，都採用 Inf1 執行個體，並發揮其效能和成本優勢。

與 Inferentia 相比，AWS Inferentia2 晶片的輸送量提升多達 4 倍，延遲降低多達 10 倍。基於 Inferentia2 的 Amazon EC2 Inf2 執行個體經過最佳化，可大規模部署日益複雜的模型，例如大型語言模型 (LLM) 和潛在擴散模型。Inf2 執行個體是 Amazon EC2 中的首個推論最佳化執行個體，可透過晶片之間的超高速連線，支援橫向擴展分散式推論。包括 Leonardo.ai、Deutsche Telekom 和 Qualtrics 在內的許多客戶已為其 DL 和生成式 AI 應用程式採用 Inf2 執行個體。

AWS Neuron SDK 可協助開發人員在 AWS Inferentia 晶片上部署模型 (並在 AWS Trainium 晶片上訓練該模型)。其與 PyTorch 和 TensorFlow 等熱門架構原生整合，因此您可以繼續使用現有程式碼和工作流程，並在 Inferentia 晶片上執行。

AWS Inferentia 的優勢

每個第一代 Inferentia 晶片都有四個第一代 NeuronCore，而每個 EC2 Inf1 執行個體最多有 16 個 Inferentia 晶片。每個 Inferentia2 晶片都有兩個第二代 NeuronCore，而每個 EC2 Inf2 執行個體最多有 12 個 Inferentia2 晶片。每個 Inferentia2 晶片支援高達每秒 190T 浮點運算 (TFLOPS) 的 FP16 效能。第一代 Inferentia 晶片均配備 8 GB 的 DDR4 記憶體，並且還具有大量片上記憶體。每個 Inferentia2 晶片提供 32 GB 的 HBM，相較於 Inferentia，記憶體總計提升了 4 倍，記憶體頻寬增加了 10 倍。

AWS Neuron SDK 與 PyTorch 和 TensorFlow 等常用的 ML 架構原生整合。透過 AWS Neuron，您可以使用這些架構在兩種 AWS Inferentia 晶片上以最佳條件部署 DL 模型，而 Neuron 旨在儘量減少程式碼變更和與供應商特定解決方案的繫結情況。 Neuron 可協助您在 Inferentia 晶片上執行用於自然語言處理 (NLP)/理解、語言翻譯、文字摘要、影片和影像產生、語音辨識、個人化、詐欺偵測等的推論作業。

第一代 Inferentia 支援 FP16、BF16 和 INT8 資料類型。Inferentia2 新增對 FP32、TF32 和新的可設定 FP8 (cFP8) 資料類型的額外支援，為開發人員提供更大的靈活性來最佳化效能和準確性。AWS Neuron 採用高精度 FP32 模型，並自動將其轉換為精度較低的資料類型，同時最佳化準確性和效能。Autocasting 透過消除對低精度再訓練的需求，來縮短上市時間。

Inferentia2 針對動態輸入大小和採用 C++ 編寫的自訂運算子，新增了硬體最佳化。其還支援隨機舍入，這是一種概率舍入方式，相較於傳統舍入模式可實現高效能和更高的精度。

相較於 Amazon EC2 執行個體，Inf2 執行個體提供高達 50% 的效能功耗比提升，因為其與基礎 Inferentia2 晶片是專為大規模執行 DL 模型而建置的。Inf2 執行個體可協助您在部署超大型模型時，實現永續發展目標。

Karakuri

了解 Karakuri 如何在使用 AWS Inferentia 控制成本的同時提供高效能 AI

觀看影片

Metagenomi

了解 Metagenomi 如何使用 AWS Inferentia 將大規模蛋白質設計成本降低高達 56%

閱讀部落格

NetoAI

了解 NetOAI 如何使用 AWS Inferentia2 實現 300–600 毫秒的推論延遲

查看客戶見證

Tomofun

了解 Tomofun 如何透過移轉至 AWS Inferentia 將 BLIP 推論部署成本降低 83%

查看客戶見證

SplashMusic

了解 SplashMusic 如何使用 AWS Inferentia 將
推論延遲降低高達 10 倍

查看客戶見證

Leonardo.ai

Leonardo 的團隊善用生成式 AI，讓創意專業人士和愛好者能夠以無與倫比的品質、速度和風格一致性來製作視覺資產。利用 AWS Inferentia2，我們能夠在不犧牲效能的情況下降低 80% 的成本，從根本上變革我們可為客戶提供的價值建議，以更易實現的價格來啟用我們最進階的功能。這也緩解了我們的輔助 AI 服務在成本和容量可用性方面的擔憂，這些服務隨著我們的成長和擴展而變得日益重要。對我們而言，這是一項關鍵的支援技術，隨著我們不斷推動生成式 AI 的可能性，為我們的使用者帶來創造力和表現力的新時代。

Leonardo.ai 的 AI 主管 Pete Werner

Qualtrics

Qualtrics 設計並開發體驗成熟的管理軟體。

在 Qualtrics，我們專注於建置能夠縮小客戶、員工、品牌和產品體驗差距的技術。為實現這一目標，我們正在開發複雜的多任務、多模態 DL 模型以推出新功能，例如文字分類、序列標記、話語分析、關鍵片語擷取、主題擷取、叢集和端到端對話理解。隨著我們在更多應用程式中採用這些更複雜的模型，非結構化資料量也在增長，我們需要效能更高的推論最佳化解決方案來滿足這些需求，例如 Inf2 執行個體，以便為我們的客戶提供最佳體驗。對於新推出的 Inf2 執行個體，我們激動不已，因為其不僅讓我們能夠實現更高的輸送量，同時顯著降低延遲，而且還引入了分散式推論和增強的動態輸入形狀支援等功能，隨著我們進一步採用更大、更複雜的大型模型，這有助於我們進行擴展以滿足部署需求。

Qualtrics 核心機器學習主管 Aaron Colak

Finch Computing

Finch Computing 是一間自然語言技術公司，為政府、金融服務和資料整合商客戶提供人工智慧應用程式。

為滿足客戶對即時 NLP 的需求，我們開發了最先進的 DL 模型，這可擴展至大型生產工作負載。我們必須提供低延遲交易並實現高輸送量，來處理全球資料饋送。我們已經將許多生產工作負載遷移至 Inf1 執行個體，並且與 GPU 相比成本降低了 80%。現在，我們正在開發更大、更複雜的模型，以便從書面文字中獲得更深刻、更富洞察力的含義。我們的許多客戶需要即時存取這些洞察，Inf2 執行個體的效能有助於我們提供比 Inf1 執行個體更低的延遲和更高的輸送量。憑藉 Inf2 效能改善和全新的 Inf2 功能，例如支援動態輸入大小，我們正在提高成本效率，提升即時客戶體驗，並協助我們的客戶從其資料中收集新的洞察。

Finch Computing 首席架構師 Franz Weckesser

Dataminr

我們針對世界各地數十萬種來源的許多類型的事件發出提醒，包括多種語言及不同的格式 (影像、影片、音訊、文字感應器、所有這些類型的組合)。由於規模對我們的業務來說絕對至關重要，因此需要針對速度和成本進行優化。藉助 AWS Inferentia，我們降低了模型延遲，並實現了每美元提升高達 9 倍的輸送量。這讓我們能夠部署更複雜的 DL 模型，並處理增加多達 5 倍的資料量，同時控制我們的成本，藉此提高模型的準確度並擴展平台的功能。

Dataminr 首席科學家兼人工智慧資深副總裁 Alex Jaimes

Snap Inc.

我們將 ML 整合至 Snapchat 的許多方面，探索這一領域的創新是最優先的考量。聽說 Inferentia 後，我們便開始與 AWS 合作，採用 Inf1/Inferentia 執行個體來幫助我們進行 ML 部署，包括圍繞效能和成本方面的合作。我們從我們的推薦模型開始，並期待將來在更多模型上採用 Inf1 執行個體。

Snap Inc. 工程副總裁 Nima Khajehnouri

Sprinklr

Sprinklr 的 AI 驅動型統一客戶體驗管理 (Unified-CXM) 平台可讓公司跨多個管道收集即时客戶回饋，並將其轉化為可行的洞察，從而主動解決問題、增强產品開發、改進內容行銷、提供更好的客戶服務等。使用 Amazon EC2 Inf1，我們可以大幅提高 NLP 模型的效能，並提高電腦視覺模型的效能。我們期待繼續使用 Amazon EC2 Inf1，更好地為全球客戶提供服務。

Sprinklr 產品工程副總裁 Vasant Srinivasan

Autodesk

Autodesk 正在透過使用 Inferentia，推進我們採用 AI 技術虛擬助理 Autodesk Virtual Agent (AVA) 的認知技術。AVA 透過使用自然語言理解 (NLU) 和 DL 技術來擷取查詢背後的上下文、意圖和含義，每月回答超過 100,000 個客戶問題。與使用 G4dn 相比，試用 Inferentia 時我們的 NLU 模型能夠取得原先 4.9 倍的輸送量，我們期待在 Inferentia 型 Inf1 執行個體上執行更多的工作負載。

Autodesk 資深資料科學家Binghui Ouyang

Screening Eagle Technologies

使用探地雷達和偵測視覺缺陷通常是專家測量員的領域。以 AWS 微型服務為基礎的架構，讓我們能夠處理由自動檢查車輛和檢查員擷取的影片。透過將我們內部建置的模型從傳統的 GPU 型執行個體遷移至 Inferentia，我們能夠將成本降低 50%。此外，比較時間與 G4dn GPU 執行個體時，我們能夠看到效能提升。我們的團隊期待在以 Inferentia 為基礎的 Inf1 執行個體上執行更多工作負載。

Screening Eagle Technologies 雲端和 AI 長 Jesús Hormigo

NTT PC Communications Inc.

NTT PC Communications 是日本的網路服務和通訊解決方案供應商，是在資訊與通訊技術市場推出創新產品的電信領導者。

NTT PC 開發了 “AnyMotion”，這是一種基於進階姿勢估計 ML 模型的運動分析 API 平台服務。我們使用 Amazon ECS 在 Amazon EC2 Inf1 執行個體上部署了他們的 AnyMotion 平台，以提供全受管容器協同運作服務。透過在 Amazon EC2 Inf1 上部署我們的 AnyMotion 容器，相較於目前一代以 GPU 為基礎的 EC2 執行個體，我們的輸送量提升了 4.5 倍，推論延遲減少了 25%，成本降低了 90%。這些卓越的成效將有助於大規模提升 AnyMotion 服務的品質。

NTT PC Communications Inc. 軟體工程師 Toshiki Yanagisawa

Anthem

Anthem 是美國其中一間領先的健康福利公司，為數十個州的超過 4,000 萬會員提供醫療保健服務。

數位醫療平台的市場正以驚人的速度增長。由於大量的客戶意見資料及其非結構化性質，因此在這個市場上收集情報是一項極具挑戰性的任務。我們的應用程式透過 DL 自然語言模型 (Transformers)，自動從客戶意見產生可行的洞見。我們的應用程式運算密集，需要以高效能方式進行部署。我們將 DL 推論工作負載，無縫部署至由 AWS Inferentia 處理器提供支援的 Amazon EC2 Inf1 執行個體上。全新 Inf1 執行個體將 GPU 型執行個體的輸送量提高了 2 倍，讓我們能夠簡化推論工作負載。

Anthem 首席 AI/資料科學家 Numan Laanait 和 Miro Mihaylov 博士

影片

幕後探究 Amazon 的生成式 AI 基礎架構

採用 AWS Inferentia2 技術的 Amazon EC2 Inf2 執行個體簡介

四名 AWS 客戶如何利用 AWS Inferentia 降低 ML 成本並促進創新

資源

部落格

在 Amazon SageMaker JumpStart 中使用 AWS Inferentia 和 AWS Trainium 以具成本效益的方式微調和部署 Llama 2 模型

閱讀部落格

部落格

開始使用 AWS Inferentia

進一步了解

主控台

開始在主控台進行建置

登入

免費方案

推論範例/教學課程 (Inf2/Trn1)

進一步了解

AWS Inferentia

為什麼選擇 Inferentia？

AWS Inferentia 的優勢

針對高輸送量和低延遲最佳化

對 ML 架構的原生支援

具有自動轉換功能的廣泛資料類型

最先進的 DL 功能

為永續發展而建置

Karakuri

Metagenomi

NetoAI

Tomofun

SplashMusic

Leonardo.ai

Qualtrics

Finch Computing

Dataminr

Snap Inc.

Sprinklr

Autodesk

Screening Eagle Technologies

NTT PC Communications Inc.

Anthem

影片

資源

在 Amazon SageMaker JumpStart 中使用 AWS Inferentia 和 AWS Trainium 以具成本效益的方式微調和部署 Llama 2 模型

使用 QLoRA 微調 Llama 2，並在配備 AWS Inferentia2 的 Amazon SageMaker 上部署

使用 AWS Inferentia2 將 Stable Diffusion 效能發揮到極致，並降低推論成本

使用 Amazon SageMaker 上的 AWS Inferentia2 和 AWS Trainium，以最低成本實現生成式 AI 推論的高效能

ByteDance 使用 AWS Inferentia 節省高達 60% 的推論成本，同時降低延遲並增加輸送量

Amazon 搜尋如何使用 AWS Inferentia 將機器學習推論成本降低 85%

使用 AWS Neuron，並從 TensorFlow、PyTorch 或 MXNet 開始著手利用 AWS Inferentia

AWS Neuron 功能藍圖

使用這些簡易教學課程開始在 AWS Inferentia 上推論

開始使用 AWS Inferentia

開始在主控台進行建置

推論範例/教學課程 (Inf2/Trn1)

了解

資源

開發人員

說明