Amazon EC2 Inf1 執行個體

雲端內的高效能和最低成本機器學習推論

各行各業的企業紛紛選用機器學習,以因應使用案例的現況,例如:提供個人化購物推薦、增進線上內容審核,以及利用環境感知 Chatbot,增進客戶參與度。然而,機器學習模型變得更具可用性,也變得更複雜。這一狀況使得會導致成本上漲的運算需求增加。在很多案例中,開發和執行 ML 應用程式的基礎設施開支中有最多 90% 用於推論,突出了高效、低成本的 ML 推論基礎設施需求的重要性。

Amazon EC2 Inf1 執行個體使輸送量提升高達 30% 以及比 Amazon EC2 G4 執行個體降低最多 45% 的每次推論成本,可說是目前市面上雲端的機器學習推論中的最低成本執行個體。Inf1 執行個體是從基礎開始建置,並支援機器學習推論應用程式。這些執行個體內建最多 16 片 AWS Inferentia 晶片,這些高效能機器學習推論晶片是由 AWS 設計和建構。此外,Inf1 執行個體包含了最新的第 2 代 Intel® Xeon® Scalable 處理器,以及最高 100 Gbps 聯網,帶來高輸送量推論。顧客可以雲端最低成本,使用 Inf1 執行個體執行大型的機器學習推論應用程式,例如,搜尋推薦、電腦視覺、語音辨識、自然語言處理、個人化作業和詐騙偵測。

開發人員可以與 TensorFlow、PyTorch 和 MXNet 等熱門機器學習框架整合的 AWS Neuron SDK 部署機器學習模型至 Inf1 執行個體。其中包含編譯器、執行階段和分析工具,以此優化 AWS Inferentia 的推論效能。開始使用 Inf1 執行個體最簡單、最快速的方法是藉助 Amazon SageMaker,這是一項全受管服務,讓開發人員能夠快速建置、培訓和部署機器學習模型。偏好管理自己的機器學習應用程式開發平台的開發人員可以兩種方式開始使用:透過包含 Neuron SDK 的 AWS 深度學習 AMI 啟動 Inf1 執行個體,或者透過 Amazon Elastic Kubernetes Service (EKS) 或容器化 ML 應用程式 Amazon Elastic Container Service (ECS) 使用 Inf1 執行個體。

SiteMerch-EC2-Instances_accelerated-trial_2up

免費試用:EC2 硬體加速執行個體最高可享價值 10,000 USD 的 AWS 積分,適用於 ML、HPC 和圖形應用程式。

按一下這裡立即申請 
以 AWS Inferentia 為基礎的 Amazon EC2 Inf1 執行個體 (2:51)

優勢

每次推論降低最高 45% 的成本

Inf1 執行個體高輸送量,以及比 Amazon EC2 G4 執行個體低最多 45% 的每次推論成本,可說是目前市面上雲端的機器學習推論中的最低成本執行個體。若機器學習推論在執行機器學習工作負載時,呈現高達 90% 的整體作業成本,就能節省大筆的成本。

高達 30% 的更佳輸送量

與 Amazon EC2 G4 執行個體相比, Inf1 執行個體為批次推論應用程式帶來高達 30% 的更佳輸送量。類似照片標記的批次推論應用程式,對推論輸送量,或每秒可處理多少推論的回應都很敏感。開發人員對 Inf1 執行個體進行了優化,可為小批次提供高效能,這對於有嚴格回應時間要求的應用程式非常重要。Inf1 執行個體的每個執行個體內含 1 至 16 片 AWS Inferentia 晶片,可擴展效能至最高每秒 2000 萬億次運算 (TOPS)。

極低延遲

Inf1 執行個體為即時應用程式帶來低延遲。類似語音產生和搜尋的即時推論應用程式,需要快速作出推論,以回應使用者的輸入,且能敏感偵測推論延遲度。Inf1 執行個體使用的 AWS Inferentia 晶片擁有更高晶片記憶體,讓機器學習模型在晶片上直接進行快取。此舉杜絕推論時存取外部記憶體資源的需要,因而在不影響頻寬的情況下,就能促進低延遲度。

適用於眾多使用案例的機器學習推論

開發人員可以在眾多機器學習應用程式中利用高效能、低延遲和低推論成本的 Inf1 執行個體,其適用於各行各業,包括影像和影片分析、交談代理、詐騙偵測、財務預測、醫療自動化、推薦引擎、文字分析和轉錄。

易用性和程式碼可攜性

Neuron SDK 與常見機器學習框架 TensorFlow 和 PyTorch 等整合後,開發人員可以最小限度的程式碼變更將現有模型部署至 EC2 Inf1 執行個體。讓開發人員自由地繼續使用所選 ML 框架,選擇最能滿足其價格效能要求的運算平台,最大限度利用最新技術而不受限於廠商專屬的軟體程式庫。

支援不同機器學習模型和資料類型

Inf1 執行個體使用 AWS Neuron 後,可支援許多常用的機器學習模型,例如:單次偵測器 (SSD) 和 ResNet,以進行影像辨識/分類,以及 Transformer 和 BERT,進行自然語言處理和翻譯。包括 INT8、 BF16 和 FP16 在內的多種資料類型,具有混合的精準度,也支援廣泛系列的模型和效能需求。

功能

採用 AWS Inferentia 技術

AWS Inferentia 是 AWS 客製化打造的機器學習晶片,以低成本帶來高效能。每片 AWS Inferentia 晶片提供高達每秒 128 萬億次運算 (TOPS) 的效能,並支援 FP16、BF16 和 INT8 資料類型。AWS Inferentia 晶片也具有大量的片上記憶體,可用於快取大型模型,這對於需要頻繁存取記憶體的模型尤其有益。

AWS Neuron 軟體開發套件 (SDK) 由編譯器、執行階段和分析工具組成。藉此使用 Inf1 執行個體,讓在 TensorFlow、PyTorch 和 MXNet 等熱門框架中建立和經過訓練的複雜神經網路模型得以執行。此外,AWS Neuron 還支援使用高速物理晶片至晶片互連,將大型模型拆分為多個 Inferentia 晶片來執行的功能,從而提供高推論輸送量並降低推論成本。

高效能聯網與儲存

Inf1 執行個體為需要存取高速網絡的應用程式提供高達 100 Gbps 的網絡輸送量。新一代彈性網路轉接器 (ENA) 和 NVM Express (NVMe) 技術為 Inf1 執行個體提供適用於聯網和 Amazon Elastic Block Store (Amazon EBS) 的高傳輸量和低延遲界面。

建立在 AWS Nitro System 之上

AWS Nitro System 是一個豐富的建置區塊集合,可將許多傳統的虛擬化功能卸載到專用的硬體和軟體,以提供高效能、高可用性和高安全性,還能降低虛擬化的額外負荷。

運作方式

如何使用 Inf1 和 AWS Inferentia

客戶見證

Anthem
Anthem 是美國其中一間領先的健康福利公司,為數十個州的超過 4000 萬會員提供醫療保健服務。「數位醫療平台的市場正以驚人的速度增長。由於大量的客戶意見資料及其非結構化性質,因此在這個市場上收集情報是一項極具挑戰性的任務。我們的應用程式透過深度學習自然語言模型 (Transformers),自動從客戶意見產生可行的洞見。我們的應用程式運算密集,需要以高效能方式進行部署。我們將深度學習推論工作負載,無縫部署至由 AWS Inferentia 處理器提供支援的 Amazon EC2 Inf1 執行個體上。全新 Inf1 執行個體將 GPU 型執行個體的輸送提高了 2 倍,讓我們能夠簡化推論工作負載。」

首席人工智慧/資料科學家 Numan Laanait 博士、首席人工智慧/資料科學家 Miro Mihaylov 博士

Condé Nast
「Condé Nast 的全球投資組合有 20 多個領先的媒體品牌,包括 Wired、Vogue 和 Vanity Fair。在幾個星期內,我們的團隊能夠將我們的推薦引擎與 AWS Inferentia 晶片整合為一體。這種聯合為 SageMaker 的 Inf1 執行個體上最先進的自然語言模型提供多個執行時間優化。因此,我們觀察到效能改進比以前部署的 GPU 執行個體,在成本上降低了 72%。」

人工智慧基礎設施首席工程師 Paul Fryzel

Asahi Shimbun
「Asahi Shimbun 是日本最受歡迎的日報之一。媒體實驗室是我們公司其中一個部門,其使命是研究最新技術,尤其是 AI,以及在新業務中採用先進的技術。隨著在東京推出 AWS Inferentia 型 Amazon EC2 Inf1 執行個體,我們在這些執行個體上測試了 PyTorch 文字摘要 AI 應用程式。該應用程式處理大量文字,並透過最近 30 年的文章產生經過訓練的標題和摘要句子。使用 Inferentia,相較於 CPU 執行個體,我們將成本降低了一個數量級。成本的大幅降低讓我們能夠大規模部署最複雜的模型,而過去我們認為這在經濟上不可行。」

Asahi Shimbun Company 媒體實驗室資深管理人員 Hideaki Tamori 博士

CS Disco
「CS Disco 正在重塑法律技術,成為人工智慧解決方案的領先供應商,提供由律師為同行開發的電子蒐證功能。Disco AI 利用複雜的自然語言處理模型 (運算量大且成本高昂) 來加速完成吃力不討好的資料處理工作、完成 TB 級資料的梳理、加快審查時間並提高審查準確性。Disco 發現,與現今的 GPU 執行個體相比,AWS Inferentia 型 Inf1 執行個體在 Disco AI 中的推論成本至少降低 35%。因為有這次 Inf1 執行個體的滿意經驗,CS Disco 將探索遷移到 Inferentia 的機會。」

CS Disco 資深研究主管Alan Lockett

Talroo
「在 Talroo,我們為客戶提供了一個資料驅動型平台,讓他們能夠吸引獨特的求職者,以便聘用他們。我們持續探索新科技,確保能為客戶提供最理想的產品與服務。使用 Inferentia,我們可以從大量文字資料中擷取洞見,以增強我們採用 AI 技術的搜尋和比對技術。Talroo 充分利用 Amazon EC2 Inf1 執行個體,與 SageMaker 攜手建立高輸送量自然語言理解模型。Talroo 的初始測試表明,相較於 G4dn GPU 型執行個體,Amazon EC2 Inf1 執行個體的推論延遲降低了 40%,而輸送量則提升了 2 倍。根據這些結果,Talroo 期待將 Amazon EC2 Inf1 執行個體用作其 AWS 基礎架構的一部分。」

Talroo 軟體工程師 Janet Hu

數位媒體專業人員 (DMP)
「數位媒體專業人員 (DMP) 透過以 AI (人工智慧) 為基礎的即時 ZIA 平台視覺化未來。憑藉 DMP 的高效電腦視覺分類技術,可對大量即時影像資料建立洞察,例如狀態觀察、犯罪預防和事故防範。我們正積極地透過替代方案來評估 Inf1 執行個體,因為我們相信,Inferentia 將為我們提供大規模部署 AI 應用程式所需的效能和成本結構。」 

Hiroyuki Umeda - 銷售與市場部總監兼總經理,數位媒體專業人員

Hotpot.ai
Hotpot.ai 讓非設計師人士能夠建立引人入勝的圖形,並協助專業設計師自動化機械任務。「由於機器學習是我們的策略核心,因此試用以 AWS Inferentia 為基礎的 Inf1 執行個體讓我們驚喜不已。我們發現 Inf1 執行個體可輕鬆整合至我們的研發管道中。最重要的是,相較於 G4dn GPU 型執行個體,我們觀察到驚人的效能提升。在我們的第一個模型中,Inf1 執行個體的輸送量提高約 45%,每次推論的成本降低近 50%。我們打算與 AWS 團隊緊密合作,以移植其他模型,並將我們的大多數 ML 推論基礎架構轉移至 AWS Inferentia。」

Hotpot.ai 創辦人 Clarence Hu

INGA
「INGA 的任務是基於人工智慧和深度學習技術建立進階文字摘述解決方案,這些技術可以輕易被整合到現有業務管道中。我們相信,文字摘述在幫助企業從資料中衍生出富有意義的洞見方面將會發揮重要作用。我們快速增加了基於 Amazon EC2 Inf1 執行個體的 AWS Inferentia 的使用,並將其整合到我們的開發管道中。出現即時而明顯的效果。Inf1 執行個體的高效能使我們提高了推論模型管道的效率和有效性。跟之前基於 GPU 的管道相比,非常明顯地,我們獲得了 4 倍的更高輸送量,並節省了 30% 的總管道成本。」

INGA Technologies 首席業務開發總監 Yaroslav Shakula 表示。

SkyWatch
「SkyWatch 要處理每天從太空擷取的百兆級像素的地球觀測資料。使用 Amazon SageMaker 採用基於 AWS Inferentia 的新 Inf1 執行個體,進行即時雲端偵測和影像品質評分,快速而簡單。只需在我們的部署組態中切換執行個體類型。將執行個體類型切換至基於 Inferentia 的 Inf1,我們提升了 40% 的效能,並降低了 23% 的總成本。這是重大獲益。這使我們降低了整體營運成本,同時以最小的工程負擔繼續為客戶提供高品質衛星影像。我們希望將我們的全部推論端點和批次 ML 處理轉換為使用 Inf1 執行個體,以進一步提升我們的資料可靠性和客戶體驗。」

SkyWatch 工程經理 Adler Santos

使用 Amazon EC2 Inf1 執行個體的 Amazon 服務

Amazon Alexa

全球售出超過 1 億組 Alexa 裝置,客戶也在 Amazon 上為 Echo 裝置留下了超過 40 萬個五星好評。「由 Amazon Web Services 提供支援的 Amazon Alexa AI 和 ML 智慧目前已經用在了過億組裝置上,我們對客戶的承諾是 Alexa 一直在變得更智慧、更對話式、更主動甚至更令人愉快」Amazon Alexa 高級副總裁 Tom Taylor 說道。「為實現承諾,需要繼續縮短回應時間以及降低機器學習基礎設施成本,這也是我們樂於使用 Amazon EC2 Inf1 在 Alexa文字轉換語音方面降低推論延遲和每次推論成本的原因。有了 Amazon EC2 Inf1,我們可以讓數以千萬計的每月使用 Alexa 的客戶獲得更好的服務。」

定價

*所示價格是針對美國東部 (維吉尼亞北部) AWS 區域。1 年期和 3 年期預留執行個體的價格適用於「部分預付」付款選項,沒有「部分預付」選項的執行個體則適用於「無預付」。

美國東部 (維吉尼亞北部) 及美國西部 (奧勒岡) AWS 區域的 Amazon EC2 Inf1 執行個體可提供隨需、預留或競價型執行個體等形式。

入門

使用 Amazon SageMaker

Amazon SageMaker 讓您可以輕鬆地在生產中的 Amazon Inf1 執行個體上編譯和部署經過訓練的機器學習模型,以便開始產生具有低延遲的即時預測。AWS Neuron 是一款 AWS Inferentia 編譯器,與 Amazon SageMaker Neo 整合,以便您編譯經過訓練的機器學習模型,從而在 Inf1 執行個體上以最佳方式執行。藉助 Amazon SageMaker,您可以輕鬆在分佈於多個可用區域的 Inf1 執行個體自動調整規模叢集上執行模型,以提供高效能和高可用性即時推論。透過 Github 上的範例,了解如何使用 Amazon SageMaker 部署至 Inf1。

使用 AWS 深度學習 AMI

AWS 深度學習 AMI (DLAMI) 為機器學習從業人員和研究人員提供基礎架構和各種工具,以加速雲端中各種規模的深度學習工作。AWS Neuron SDK 預先安裝於 AWS 深度學習 AMI,以最佳方式在 Inf1 執行個體上編譯和執行機器學習模型。如需協助您完成入門程序的指導,請參閱 AMI 選購指南和更多深入學習資源。請參閱 AWS DLAMI 入門指南了解如何用 Neuron 使用 DLAMI。

使用深度學習容器

開發人員目前可以在 Amazon Elastic Kubernetes Service (EKS) 上部署 Inf1 執行個體,這是一種全受管 Kubernetes 服務;也可以在 Amazon Elastic Container Service (ECS) 中部署,這是一種 Amazon 的全受管容器協同服務。在本部落格中進一步了解在 Amazon EKS 上開始使用 Inf1 的資訊。更多關於 Inf1 執行個體上執行容器的詳細資訊,請參閱 Neuron 容器工具教學頁面。支援 AWS DL Containers 的 Inf1 即將推出。