Amazon EC2 Inf1 執行個體

雲端內的高效能和最低成本機器學習推論

不同產業的企業都在研究採用 AI 技術的轉型,以推動業務創新、改善客戶體驗和程序改進。採用 AI 應用程式的機器學習模型正變得越來越複雜,導致潜在的運算基礎設施成本不斷上升。用於開發和執行 ML 應用程式的基礎設施支出中,高達 90% 通常用於推論。客戶正在尋找具成本效益的基礎設施解決方案,以在生產中部署 ML 應用程式。

Amazon EC2 Inf1 執行個體會在雲端中以最低成本提供高效能 ML 推論。與最新一代 GPU 型 Amazon EC2 執行個體相比,它們的輸送量最多提高 2.3 倍,每次推論成本最多降低 70%。Inf1 執行個體是從基礎開始建置,並支援機器學習推論應用程式。內建最多 16 片 AWS Inferentia 晶片,這些高效能機器學習推論晶片是由 AWS 設計和建置。此外,Inf1 執行個體包含了第 2 代 Intel® Xeon® Scalable 處理器,以及最高 100 Gbps 聯網,帶來高輸送量推論。

客戶可以在雲端中以最低成本使用 Inf1 執行個體執行大型的機器學習推論應用程式,例如,搜尋推薦、電腦視覺、語音辨識、自然語言處理、個人化作業和詐騙偵測。

開發人員可以與 TensorFlow、PyTorch 和 MXNet 等熱門機器學習框架整合的 AWS Neuron SDK 部署機器學習模型至 Inf1 執行個體。 他們可以繼續使用相同的 ML 工作流程,並無縫地將應用程式遷移至 Inf1 執行個體,只需變更極少的程式碼,且不受限於廠商專屬的解決方案。

透過使用 Amazon SageMaker、預先設定了 Neuron SDK 的 AWS 深度學習 AMI,或使用 Amazon ECS 或 Amazon EKS 實現容器化 ML 應用程式,輕鬆開始使用 Inf1 執行個體。

Amazon EC2 Inf1 instances based on AWS Inferentia (2:51)

優勢

每次推論降低最高 70% 的成本

使用 Inf1,開發人員可以在雲端中實現最低的每次推論成本,大幅降低機器學習產品部署的成本。與最新一代 GPU 型 EC2 執行個體相比,Inf1 執行個體既具有低執行個體成本又具有高輸送量,每次推論成本最多可降低 70%。

易用性和程式碼可攜性

Neuron SDK 與常見的機器學習框架 (如 TensorFlow、PyTorch 和 MXNet) 整合。開發人員可以繼續使用相同的 ML 工作流程,並無縫地將應用程式遷移至 Inf1 執行個體,只需變更極少的程式碼。這可讓他們自由地使用所選擇的機器學習框架、最能滿足其需求的運算平台,並利用最新技術,而不受限於廠商專屬的解決方案。

高達 2.3 倍的更佳輸送量

與最新一代 GPU 型 Amazon EC2 執行個體相比,Inf1 執行個體提供高達 2.3 倍的更佳輸送量。 為 Inf1 執行個體提供強大功能的 AWS Inferentia 晶片針對小批量的推斷效能進行了最佳化,可讓即時應用程式最大限度地提高輸送量並滿足延遲要求。

極低延遲

AWS Inferentia 晶片配備大型晶片記憶體,可讓機器學習模型在晶片本身上直接進行快取。您可以使用 NeuronCore Pipeline 之類的功能來部署您的模型,這樣就不需要存取外部記憶體資源。使用 Inf1 執行個體,您能以近乎即時的延遲部署即時推論應用程式,而不會影響頻寬。

支援多種機器學習模型和資料類型

Inf1 執行個體支援許多常用的機器學習模型架構,例如:SSD、VGG 和 ResNext – 進行影像辨識/分類;以及 Transformer 和 BERT – 進行自然語言處理。此外,對 Neuron 中 HuggingFace 模型儲存庫的支援可讓客戶使用預先訓練的模型 (甚至微調的模型) 來編譯和執行推論,只需變更一行程式碼即可輕鬆完成。包括 BF16 和 FP16 在內的多種資料類型,具有混合的精準度,也支援廣泛系列的模型和效能需求。

功能

採用 AWS Inferentia 技術

AWS Inferentia 是 AWS 客製化打造的機器學習晶片,以低成本帶來高效能。每片 AWS Inferentia 晶片提供高達每秒 128 萬億次運算 (TOPS) 的效能,並支援 FP16、BF16 和 INT8 資料類型。AWS Inferentia 晶片也具有大量的片上記憶體,可用於快取大型模型,這對於需要頻繁存取記憶體的模型尤其有益。

AWS Neuron 軟體開發套件 (SDK) 由編譯器、執行階段驅動程式和分析工具組成。藉此使用 Inf1 執行個體,讓在 TensorFlow、PyTorch 和 MXNet 等熱門框架中建立和經過訓練的複雜神經網路模型得以部署。使用 Neuron 的 NeuronCore Pipeline,您可以使用高速實體晶片至晶片互連,將大型模型拆分為多個 Inferentia 晶片來執行的功能,從而提供高推論輸送量並降低推論成本。

高效能聯網與儲存

Inf1 執行個體為需要存取高速網絡的應用程式提供高達 100 Gbps 的網絡輸送量。新一代彈性網路轉接器 (ENA) 和 NVM Express (NVMe) 技術為 Inf1 執行個體提供適用於聯網和 Amazon Elastic Block Store (Amazon EBS) 的高傳輸量和低延遲界面。

建立在 AWS Nitro System 之上

AWS Nitro System 是一個豐富的建置區塊集合,可將許多傳統的虛擬化功能卸載到專用的硬體和軟體,以提供高效能、高可用性和高安全性,還能降低虛擬化的額外負荷。

運作方式

如何使用 Inf1 和 AWS Inferentia

客戶見證

SkyWatch
「我們將機器學習 (ML) 整合到 Snapchat 的許多方面,探索這一領域的創新是最優先的考量。聽說 Inferentia 後,我們便開始與 AWS 合作,採用 Inf1/Inferentia 執行個體來幫助我們進行 ML 部署,包括圍繞效能和成本方面的合作。我們從我們的推薦模型開始,並期待將來在更多模型上採用 Inf1 執行個體。」

Snap Inc. 工程副總裁 Nima Khajehnouri

Anthem
「Autodesk 正在透過使用 Inferentia,推進我們採用 AI 技術虛擬助理 Autodesk Virtual Agent (AVA) 的認知技術。AVA 透過使用自然語言理解 (NLU) 和深度學習技術來擷取查詢背後的上下文、意圖和含義,每月回答超過 100,000 個客戶問題。與使用 G4dn 相比,試用 Inferentia 時我們的 NLU 模型能夠取得原先 4.9 倍的輸送量,我們期待在 Inferentia 型 Inf1 執行個體上執行更多的工作負載。」

Autodesk 高級資料科學家 Binghui Ouyang

Sprinklr
「Sprinklr 的 AI 驅動型統一客戶體驗管理平台 (Unified-CXM) 可讓公司跨多個管道收集即时客戶回饋,並將其轉化為可行的洞察,從而主動解決問題、增强產品開發、改進內容行銷、提供更好的客戶服務等。使用 Amazon EC2 Inf1,我們可以大幅提高自然語言處理 (NLP) 模型的效能,並提高電腦視覺模型的效能。我們期待繼續使用 Amazon EC2 Inf1,更好地為全球客戶提供服務。」

Sprinklr 產品工程副總裁 Vasant Srinivasan

Anthem
Anthem 是美國其中一間領先的健康福利公司,為數十個州的超過 4,000 萬會員提供醫療保健服務。「數位醫療平台的市場正以驚人的速度增長。由於大量的客戶意見資料及其非結構化性質,因此在這個市場上收集情報是一項極具挑戰性的任務。我們的應用程式透過深度學習自然語言模型 (Transformers),自動從客戶意見產生可行的洞見。我們的應用程式運算密集,需要以高效能方式進行部署。我們將深度學習推論工作負載,無縫部署至由 AWS Inferentia 處理器提供支援的 Amazon EC2 Inf1 執行個體上。全新 Inf1 執行個體將 GPU 型執行個體的輸送提高了 2 倍,讓我們能夠簡化推論工作負載。」

首席人工智慧/資料科學家 Numan Laanait 博士、首席人工智慧/資料科學家 Miro Mihaylov 博士

Condé Nast
「Condé Nast 的全球投資組合有 20 多個領先的媒體品牌,包括 Wired、Vogue 和 Vanity Fair。在幾個星期內,我們的團隊能夠將我們的推薦引擎與 AWS Inferentia 晶片整合為一體。這種聯合為 SageMaker 的 Inf1 執行個體上最先進的自然語言模型提供多個執行時間優化。因此,我們觀察到與以前部署的 GPU 執行個體相比,成本降低了 72%。」

人工智慧基礎設施首席工程師 Paul Fryzel

Asahi Shimbun
「Ciao 正在將傳統的安全攝影機演進為相當於人眼的高效能分析攝影機。我們的應用程式正在促進災難預防,使用雲端 AI 攝影機解決方案來監控環境狀況,以在災難發生前發出警示。此類警示可促使事先對情況做出回應。根據物件偵測,我們還可以透過從實體店的影片中估算沒有員工時的賓客人數,從而提供洞見。Ciao 攝影機在商業上採用 AWS Inferentia 型 Inf1 執行個體,相較於 YOLOv4 的 G4dn,其性價比提升了 40%。我們期待 Inf1 憑藉其顯著的成本效益提供更多服務。」

Ciao Inc. 軟體工程師 Shinmoto Matsumoto

Asahi Shimbun
「Asahi Shimbun 是日本最受歡迎的日報之一。媒體實驗室是我們公司其中一個部門,其使命是研究最新技術,尤其是 AI,以及在新業務中採用先進的技術。隨著在東京推出 AWS Inferentia 型 Amazon EC2 Inf1 執行個體,我們在這些執行個體上測試了 PyTorch 文字摘要 AI 應用程式。該應用程式處理大量文字,並透過最近 30 年的文章產生經過訓練的標題和摘要句子。使用 Inferentia,相較於 CPU 執行個體,我們將成本降低了一個數量級。成本的大幅降低讓我們能夠大規模部署最複雜的模型,而過去我們認為這在經濟上不可行。」

Asahi Shimbun Company 媒體實驗室資深管理人員 Hideaki Tamori 博士

CS Disco
「CS Disco 正在重塑法律技術,成為人工智慧解決方案的領先供應商,提供由律師為同行開發的電子蒐證功能。Disco AI 利用複雜的自然語言處理模型 (運算量大且成本高昂) 來加速完成吃力不討好的資料處理工作、完成 TB 級資料的梳理、加快審查時間並提高審查準確性。Disco 發現,與現今的 GPU 執行個體相比,AWS Inferentia 型 Inf1 執行個體在 Disco AI 中的推論成本至少降低 35%。因為有這次 Inf1 執行個體的滿意經驗,CS Disco 將探索遷移到 Inferentia 的機會。」

CS Disco 資深研究主管Alan Lockett

Talroo
「在 Talroo,我們為客戶提供了一個資料驅動型平台,讓他們能夠吸引獨特的求職者,以便聘用他們。我們持續探索新科技,確保能為客戶提供最理想的產品與服務。使用 Inferentia,我們可以從大量文字資料中擷取洞見,以增強我們採用 AI 技術的搜尋和比對技術。Talroo 充分利用 Amazon EC2 Inf1 執行個體,與 SageMaker 攜手建立高輸送量自然語言理解模型。Talroo 的初始測試表明,相較於 G4dn GPU 型執行個體,Amazon EC2 Inf1 執行個體的推論延遲降低了 40%,而輸送量則提升了 2 倍。根據這些結果,Talroo 期待將 Amazon EC2 Inf1 執行個體用作其 AWS 基礎架構的一部分。」

Talroo 軟體工程師 Janet Hu

數位媒體專業人員 (DMP)
「數位媒體專業人員 (DMP) 透過以 AI (人工智慧) 為基礎的 ZIA™ 平台視覺化未來。憑藉 DMP 的高效電腦視覺分類技術,可對大量即時影像資料建立洞察,例如狀態觀察、犯罪預防和事故防範。我們認識到,相較於 GPU 型 G4 執行個體,在 AWS Inferentia 型 Inf1 執行個體上,我們的影像分割模型執行速度提升了四倍。由於具有更高的輸送量和更低的成本,Inferentia 讓我們能夠大規模部署 AI 工作負載,例如用於車載行車記錄儀的應用程式。」

Hiroyuki Umeda - 銷售與市場部總監兼總經理,數位媒體專業人員

Hotpot.ai
Hotpot.ai 讓非設計師人士能夠建立引人入勝的圖形,並協助專業設計師自動化機械任務。「由於機器學習是我們的策略核心,因此試用以 AWS Inferentia 為基礎的 Inf1 執行個體讓我們驚喜不已。我們發現 Inf1 執行個體可輕鬆整合至我們的研發管道中。最重要的是,相較於 G4dn GPU 型執行個體,我們觀察到驚人的效能提升。在我們的第一個模型中,Inf1 執行個體的輸送量提高約 45%,每次推論的成本降低近 50%。我們打算與 AWS 團隊緊密合作,以移植其他模型,並將我們的大多數 ML 推論基礎架構轉移至 AWS Inferentia。」

Hotpot.ai 創辦人 Clarence Hu

SkyWatch
「SkyWatch 要處理每天從太空擷取的百兆級像素的地球觀測資料。使用 Amazon SageMaker 採用基於 AWS Inferentia 的新 Inf1 執行個體,進行即時雲端偵測和影像品質評分,快速而簡單。只需在我們的部署組態中切換執行個體類型。將執行個體類型切換至基於 Inferentia 的 Inf1,我們提升了 40% 的效能,並降低了 23% 的總成本。這是重大獲益。這使我們降低了整體營運成本,同時以最小的工程負擔繼續為客戶提供高品質衛星影像。我們希望將我們的全部推論端點和批次 ML 處理轉換為使用 Inf1 執行個體,以進一步提升我們的資料可靠性和客戶體驗。」

SkyWatch 工程經理 Adler Santos

使用 Amazon EC2 Inf1 執行個體的 Amazon 服務

Amazon Alexa
「由 Amazon Web Services 提供支援的 Amazon Alexa AI 和 ML 智慧目前已經用在了過億組裝置上,我們對客戶的承諾是 Alexa 一直在變得更智慧、更對話式、更主動甚至更令人愉快。為實現承諾,需要繼續縮短回應時間以及降低機器學習基礎設施成本,這也是我們樂於使用 Amazon EC2 Inf1 在 Alexa文字轉換語音方面降低推論延遲和每次推論成本的原因。有了 Amazon EC2 Inf1,我們可以讓數以千萬計的每月使用 Alexa 的客戶獲得更好的服務。」

Amazon Alexa 高級副總裁 Tom Taylor

「我們不斷創新以進一步改善我們的客戶體驗並降低我們的基礎設施成本。將我們基於 Web 的問答 (WBQA) 工作負載從基於 GPU 的 P3 執行個體遷移到基於 AWS Inferentia 的 Inf1 執行個體,不僅幫助我們將推論成本降低了 60%,還將端到端延遲降低了 40% 以上,幫助提升客戶對 Alexa 的問答體驗。將 Amazon SageMaker 用於我們基於 Tensorflow 的模型,讓切換到 Inf1 執行個體的過程變得簡單且易於管理。我們現在在全球範圍內使用 Inf1 執行個體來執行這些 WBQA 工作負載,並正在為 AWS Inferentia 最佳化其效能,以進一步降低成本和縮短延遲。」

Alexa AI 軟體開發工程師 Eric Lind

Amazon Alexa
「Amazon Rekognition 是一種簡單易用的影像和影片分析應用程式,可幫助客戶識別物件、人物、文字和活動。Amazon Rekognition 需要高效能的深度學習基礎設施,以便每天為我們的客戶分析數十億個影像和影片。與在 GPU 上執行相比,使用 AWS Inferentia 型 Inf1 執行個體執行 Rekognition 模型 (例如物件分類) 可將延遲降低至原來的 8 倍,將輸送量提高至原來的 2 倍。鑒於這些結果,我們正在將 Rekognition 移至 Inf1,讓我們的客戶能夠更快地取得準確結果。」
 
Rekognition and Video 軟體工程 Rajneesh Singh

定價

*所示價格是針對美國東部 (維吉尼亞北部) AWS 區域。1 年期和 3 年期預留執行個體的價格適用於「部分預付」付款選項,沒有「部分預付」選項的執行個體則適用於「無預付」。

美國東部 (維吉尼亞北部) 及美國西部 (奧勒岡) AWS 區域的 Amazon EC2 Inf1 執行個體可提供隨需、預留或競價型執行個體等形式。

入門

使用 Amazon SageMaker

Amazon SageMaker 讓您可以輕鬆地在生產中的 Amazon Inf1 執行個體上編譯和部署經過訓練的機器學習模型,以便開始產生具有低延遲的即時預測。AWS Neuron 是一款 AWS Inferentia 編譯器,與 Amazon SageMaker Neo 整合,以便您編譯經過訓練的機器學習模型,從而在 Inf1 執行個體上以最佳方式執行。藉助 Amazon SageMaker,您可以輕鬆在分佈於多個可用區域的 Inf1 執行個體自動調整規模叢集上執行模型,以提供高效能和高可用性即時推論。透過 Github 上的範例,了解如何使用 Amazon SageMaker 部署至 Inf1。

使用 AWS 深度學習 AMI

AWS 深度學習 AMI (DLAMI) 為機器學習從業人員和研究人員提供基礎架構和各種工具,以加速雲端中各種規模的深度學習工作。AWS Neuron SDK 預先安裝於 AWS 深度學習 AMI,以最佳方式在 Inf1 執行個體上編譯和執行機器學習模型。如需協助您完成入門程序的指導,請參閱 AMI 選購指南和更多深入學習資源。請參閱 AWS DLAMI 入門指南,了解如何透過 Neuron 使用 DLAMI。

使用深度學習容器

開發人員目前可以在 Amazon Elastic Kubernetes Service (EKS) 上部署 Inf1 執行個體,這是一種全受管 Kubernetes 服務;也可以在 Amazon Elastic Container Service (ECS) 中部署,這是一種 Amazon 的全受管容器協同服務。進一步了解在 Amazon EKS 上或透過 Amazon ECS 開始使用 Inf1 的資訊。更多關於 Inf1 執行個體上執行容器的詳細資訊,請參閱 Neuron 容器工具教學頁面。Neuron 也可以預先安裝在 AWS DL Containers 中。

部落格和文章

為在 AWS Inferentia 上開箱即用的 PyTorch 自然語言處理應用程式提供 12 倍更佳輸送量和最低延遲 (Achieve 12x higher throughput and lowest latency for PyTorch Natural Language Processing applications out-of-the-box on AWS Inferentia)

作者:Fabio Nonato de Paula 和 Mahadevan Balasubramaniam,2021 年 5 月 4 日

我們如何使用 AWS Inferentia 將 Autodesk Ava Chatbot 的 PyTorch NLP 模型效能提高 4.9 倍 (How We Used AWS Inferentia to Boost PyTorch NLP Model Performance by 4.9x for the Autodesk Ava Chatbot)

作者:Binghui Ouyang,2021 年 4 月 7 日

在 AWS Inferentia 上使用 AWS Neuron 編譯的 YOLOv4 模型,能讓以深度學習為基礎的物件偵測實現 1.85 倍的效能提升 (Achieving 1.85x higher performance for deep learning based object detection with AWS Neuron compiled YOLOv4 model on AWS Inferentia)

作者︰Fabio Nonato de Paula、Haichen Li 和 Samuel Jacob,2020 年 10 月 6 日

絕大多數 Alexa 現在能在更快、更經濟高效的 Amazon EC2 Inf1 執行個體上執行 (Majority of Alexa now running on faster, more cost-effective Amazon EC2 Inf1 instances)

作者︰Sébastien Stormacq,2020 年 11 月 12 日

宣布 Amazon SageMaker 中 Inf1 執行個體的可用性,可提供高效能和經濟高效的機器學習推論 (Announcing availability of Inf1 instances in Amazon SageMaker for high performance and cost-effective machine learning inference)

作者:Julien Simon,2020 年 4 月 22 日

Amazon ECS 現在支援 EC2 Inf1 執行個體 (Amazon ECS Now Supports EC2 Inf1 Instances)

作者:Julien Simon,2020 年 8 月 14 日

在基於 AWS Inferentia 的 Inf1 執行個體上部署 TensorFlow OpenPose,獲得重大價格效能提升

作者:Fabio Nonato De Paula 和 Haichen Li,2020 年 07 月 22 日

Amazon EKS 現在支援 EC2 Inf1 執行個體

作者︰Julien Simon,2020 年 06 月 15 日

Amazon EC2 更新 – 搭載 AWS Inferentia 晶片的 Inf1 執行個體,實現經濟高效的高效能推理 (Amazon EC2 Update – Inf1 Instances with AWS Inferentia Chips for High Performance Cost-Effective Inferencing)

作者:Jeff Barr,2019 年 12 月 3 日

AWS Inferentia 現於 11 個 AWS 區域開放使用,具備一流的效能,可大規模執行物件偵測模型 (AWS Inferentia is now available in 11 AWS Regions, with best-in-class performance for running object detection models at scale)

作者︰Gadi Hutt,2020 年 9 月 28 日