AWS Neuron

在 AWS Inferentia 晶片上優化機器學習推論的軟體開發套件

AWS Neuron 是使用 AWS Inferentia 晶片執行機器學習推論的軟體開發套件 (SDK)。它內含編譯器、執行時間和分析工具,能讓開發人員使用以 AWS Inferentia 為基礎的 Amazon EC2 Inf1 執行個體,執行高效能和低延遲度的推論工作負載。 使用 Neuron,開發人員可在常見架構例如 TensorFlow、PyTorch 和 MXNet 上輕鬆訓練機器學習模型,並且在 Amazon EC2 Inf1 執行個體上以最佳方式執行。您可繼續使用目前採行的相同機器學習 (ML) 架構,以少許程式碼變更即可將軟體遷移至 Inf1 執行個體,不受限於廠商專屬的解決方案。

開始使用 Inf1 執行個體最快速、最簡單的方法是藉助 Amazon SageMaker,這是一項全受管服務,可供資料科學家和開發人員用來建置、訓練和部署機器學習模型。對於偏好自行管理機器學習工作流程的開發人員,會發現 AWS Neuron 易於整合至現用乃至於未來的工作流程,因其原本即與常用架構相整合,包括 TensorFlow、PyTorch 和 MXNet。Neuron 已預先安裝至 AWS 深度學習 AMI 以及 AWS Deep Learning Containers 內。使用容器化應用程式的客戶可利用 Amazon ECSAmazon EKS,或自選的原生容器引擎以部署 Neuron。

優勢

易於使用

AWS Neuron SDK 與常見架構,例如 TensorFlow、PyTorch 和 MXNet 相整合。其已預先安裝至 Amazon 深度學習 AMIAmazon Deep Learning Containers,以便客戶能夠在以 AWS Inferentia 晶片為特色的 Amazon EC2 Inf1 執行個體上迅速地開始執行高效能且經濟實惠的推論。

優化效能

透過 AWS Neuron SDK 能對 Inferentia 晶片進行高效程式設計和執行時間存取。其提供進階功能,例如 Auto Casting,能將針對準確性優化的 FP32 (32 位元浮點) 模型自動轉換成 16 位元大浮點,以達到最大處理輸送量。開發人員能利用 Neuron 的功能進一步提升效能,例如模型平行處理、批次處理,或 NeuronCore 群組,讓相同或不同的模型平行執行以進行資料平行處理,繼而達到最大輸送量。

靈活性和選擇

Neuron 與常見機器學習架構整合後,開發人員可以最小限度的程式碼變更將現有模型部署至 EC2 Inf1 執行個體。如此可賦與其維持硬體可攜性、同時利用最新技術的自由,不受限於廠商特定的軟體程式庫。使用 Neuron,開發人員能部署許多常用的機器學習模型,例如:單次偵測器 (SSD) 和 ResNet,以進行影像辨識/分類,以及 Transformer 和 BERT,進行自然語言處理和翻譯。此外,對 Neuron 中 HuggingFace 模型儲存庫的支援可讓客戶使用預先訓練的模型 (甚至微調的模型) 來編譯和執行推論,只需變更一行程式碼即可輕鬆完成。

特色

智慧分割

AWS Neuron 能自動優化神經網路運算,以在 Inferentia 上執行密集任務和在 CPU 上執行其他任務,增加整體效能。 

FP32 Autocasting

AWS Neuron 能採納高度精準的 FP32 訓練後模型,經過 Autocast 處理成為 BF16,以 16 位元資料類型的較低成本與較高速度執行高輸送量推論。 

NeuronCore Pipeline

NeuronCore Pipeline 能為對延遲敏感的應用程式 (例如自然語言處理) 做到高輸送量模型的平行處理,作法是將運算圖形分散為多個 NeuronCores 之間的碎片、在各核心的片上記憶體快取模型參數,再依管道形式在核心之間串流推論請求。 

NeuronCore 群組

NeuronCore 群組讓開發人員能並行部署多個模型,對各群組分別執行不同的模型,達到以最佳方式利用硬體資源的目的。

優化批次處理

AWS Neuron 能優化 Inferentia 晶片上的工作負載,以最大程度地利用小型批次,使得具有嚴格回應時間要求的應用程式能夠發揮高效能。

運作方式

how-it-works-inf1

AWS Inferentia 晶片

AWS Inferentia 是 AWS 設計和建置的機器學習推論晶片,以低成本帶來高效能。每片 AWS Inferentia 晶片都有 4 個 Neuron 核心,並支援 FP16、 BF16 和 INT8 資料類別。AWS Inferentia 晶片具有大量的片上記憶體,可用於快取大型模型,這對於需要頻繁存取記憶體的模型尤其有益。

進一步了解 »

Amazon EC2 Inf1 執行個體

與最新一代 GPU 型 Amazon EC2 執行個體相比,基於 AWS Inferentia 晶片的 Amazon EC2 Inf1 執行個體,其輸送量最多提高 2.3 倍,每次推論成本最多降低 70%。 Inf1 執行個體的特色包括多達 16 枚 AWS Inferentia 晶片、最新自訂第 2 代 Intel® Xeon® 可擴充處理器,以及最高 100 Gbps 聯網, 帶來高輸送量推論。

進一步了解 »

入門

請參閱文件以取得教學、做法指南、應用程式說明和藍圖。
如需進一步協助,可經由 AWS 主控台或以下網址進入開發人員論壇:https://forums.aws.amazon.com/forum.jspa?forumID=355