AWS Machine Learning 基礎設施

每個工作負載的高效能、經濟實惠、可擴展的基礎設施

AWS 上進行的機器學習比其他任何地方都要多

遍及各行業的客戶之中,越來越多在比較過其他雲端設施之後,選中以 AWS 建置、訓練和部署機器學習 (ML) 應用程式。AWS 備有一切機器學習 (ML) 專案或應用程式皆適用之強大運算、高速聯網及可擴展高效能儲存選項的最廣泛選擇。

每個機器學習 (ML) 專案皆不相同;使用 AWS,您可依照效能和預算的要求自訂基礎設施。從使用最適合團隊的機器學習 (ML) 架構,到為了託管機器學習 (ML) 模型而選擇適當的硬體平台,AWS 都有廣泛的服務選擇能符合您的需要。

企業已經發現將機器學習 (ML) 運用於推薦引擎、物體偵測、語音助理、詐騙偵測等等的新方式。雖然機器學習 (ML) 的使用越來越受歡迎,不過訓練及部署機器學習 (ML) 模型相當昂貴,模型開發時間長,同時要想迎合不斷變化的商業態勢採購適量基礎設施,也並非易事。AWS 機器學習 (ML) 基礎設施服務因為有高效能、經濟實惠且高彈性,故能消除採行機器學習 (ML) 的障礙。

AWS 機器學習 (ML) 基礎設施:高效能、經濟實惠,且高彈性 (3:20)

廣泛的一組機器學習服務可供選擇

下圖所示為 AWS 所提供服務深度與廣度。頂層所示的工作流程服務能便於您管理及擴展基本的機器學習 (ML) 基礎設施。下一層突顯 AWS 機器學習 (ML) 基礎設施能支援各大機器學習 (ML) 架構 底層所示為運算、聯網及儲存服務的範例,這些構成機器學習 (ML) 基礎設施的基本區塊。

廣泛的一組機器學習服務可供選擇

機器學習基礎設施服務

傳統式機器學習 (ML) 開發是複雜、昂貴,並屬重複性的程序。首先,必須準備範例資料以訓練模型。接著,開發人員需要選擇建置模型所用的演算法或架構。然後,需要訓練模型如何進行預測,並加以調整,使得盡可能產生最好的預測。最後,需要整合模型和應用程式,並將此應用程式部署到可擴展的基礎設施上。

  • 準備
  • 資料科學家經常耗費大量時間在範例資料的探索和預處理或者「角力」,之後才能用於模型訓練。為了預先處理資料,通常需將資料擷取至資料儲存區,藉由篩選和修改資料以清理資料,以更便於探索、準備資料,或透過剔除不想要或不需要的部分,並加上標籤,以將資料轉型為具有意義的資料集。

    挑戰 AWS 解決方案 用的是什麼方式呢?
    手動資料標記 Amazon Mechanical Turk 提供隨需、可擴展,符合人性的人力以完成任務。
    手動資料標記 Amazon SageMaker Ground Truth 以真人標記的資料訓練 Ground Truth 將標記作業自動化,讓這項服務能夠獨立學習標記資料。
    管理及擴展資料處理 Amazon SageMaker 處理 將全受管經驗延伸至資料處理工作負載。連結現有儲存或檔案系統資料來源、啟動執行任務所需的資源、將輸出儲存至持久性儲存中,並檢查日誌和指標。
    管理訓練模型所需的大量資料 Amazon EMR 輕鬆提高大量資料的大規模處理速度並符合成本效益要求。
    訓練模型所需的大量資料的共享檔案儲存
    Amazon S3 以隨時可存取的取得/放置存取形式,提供全球可用的資料長期耐久儲存。
  • 建置
  • 一旦您有訓練資料可用,即需要選擇學習模式符合需求的機器學習演算法。這些演算法可廣義分類為監督學習、無監督學習,或強化學習。為協助您開發模型,有各種機器學習架構可用,例如 TensorFlow、Pytorch 和 MXNet,並有程式庫和工具使開發更加便利。

    挑戰 AWS 解決方案 用的是什麼方式呢?
    存取 Jupyter 筆記本 託管的 Jupyter 筆記本 託管的 Jupyter 筆記本正在您所選的 EC2 執行個體上執行。
    Jupyter 筆記本中的共用與協作 Amazon SageMaker 筆記本 全受管的 Jupyter 筆記本,您可立即開始使用,以單鍵動作即可與人共用。自動擷取代碼相依項,因此您可以輕鬆地與他人協作。同業將獲得完全相同的筆記本,且儲存在同一位置。
    演算法建立 Amazon SageMaker 預先建置演算法 高效能、可擴展的機器學習演算法,並最佳化其速度和準確度,可在 PB 級的資料組內進行訓練。
    深度學習架構優化 Amazon SageMaker 這些領先架構會自動得到設定和最佳化,可達成最高效能。您無需手動設定架構,且可在內建容器中使用。
    開始使用多重機器學習 (ML) 架構 AWS 深度學習 AMI 讓使用者能迅速啟動 Amazon EC2 執行個體,並已預先安裝常用深度學習架構與界面,例如 TensorFlow、PyTorch 及 Apache MXNet。
    開始使用容器的多重機器學習 (ML) 架構   AWS Deep Learning Containers 連同深度學習架構一併預先安裝的 Docker 影像,讓您輕鬆快速地部署自訂機器學習環境。
  • 訓練
  • 建置模型之後,您需要訓練模型的運算、聯網和儲存資源。快速的模型訓練能讓資料科學家和機器學習工程師更快速地重複利用、訓練更多模型,以及提高準確性。訓練模型之後,您需要加以評估,判斷推論的準確度是否可接受。

    執行個體

    挑戰
    AWS 解決方案            用的是什麼方式呢?
    對時間和成本敏感的大規模訓練 採用 AWS Trainium 技術的 EC2 Trn1 執行個體

    Amazon EC2 Trn1 執行個體採用 AWS Trainium 晶片,專為高效能深度學習訓練建置,可針對在雲端訓練深度學習模型提供最優價格效能比。

    對成本敏感的訓練 採用 Habana Gaudi 技術的 EC2 DL1 執行個體

    Amazon EC2 DL1 執行個體採用 Habana Labs (Intel 旗下公司) 的 Gaudi 加速器,是專為訓練深度學習模型而設計。這些 EC2 DL 1 執行個體可利用多達 8 個 Gaudi 加速器,與當前基於 GPU 的 EC2 執行個體相比,用於訓練深度學習模型的價格效能比最高可高出 40%。

    時間緊迫的大規模訓練 Amazon EC2 P4 執行個體 P4d 執行個體可提供雲端效能最強的機器學習訓練,含有 8 個 NVIDIA A100 Tensor Core GPU、400 Gbps 執行個體聯網,並有 NVIDIA GPUDirect RDMA (遠端直接記憶體存取) 的支援 Elastic Fabric Adapter (EFA)。 P4d 執行個體部署在名為 EC2 UltraClusters 的超大規模叢集,能為一般機器學習 (ML) 開發人員、研究員和資料科學家提供超級電腦級的效能。
    時間緊迫的大規模訓練 Amazon EC2 P3 執行個體 P3 執行個體提供每執行個體多達 1 Petaflop 混合精度效能,有多達 8 個 NVIDIA® V100 Tensor Core GPU,高達 100 Gbps 的聯網輸送量。
    對成本敏感的小規模訓練 Amazon EC2 G5 執行個體

    相較於 G4dn 執行個體,G5 執行個體可提供高達 3.3 倍的機器學習訓練效能。

    對成本敏感的小規模訓練 Amazon EC2 G4 執行個體 G4 執行個體能發揮高達 65 TFLOP 的 FP16 效能,對小規模訓練任務而言是出色的解決方案。

    協同運作服務

    挑戰 AWS 解決方案 用的是什麼方式呢?
    多節點訓練 Elastic Fabric Adapter EFA 可讓客戶使用自訂建置作業系統 (OS) 旁路硬體界面,大規模執行需要高層級節點間通訊的應用程式。
    高度可擴展的複雜容器協同運作 Amazon Elastic Container Service (ECS) ECS 是全受管的容器協同運作服務。
    高度可擴展的 Kubernetes 協同運作 Amazon Elastic Kubernetes Service (EKS) 您可以將 Kubeflow 與 EKS 結合使用來建模您的機器學習工作流程,高地執行分散式訓練任務。
    大規模訓練 AWS Batch Batch 會根據提交的批次任務所需的數量和特定資源需求,動態佈建優化的運算資源數量和類型。
    針對大規模訓練優化效能 AWS ParallelCluster AWS ParallelCluster 能自動為大規模的機器學習 (ML) 訓練專案設定所需的運算資源和共享檔案系統。

    儲存

    挑戰 AWS 解決方案 用的是什麼方式呢?
    可擴展儲存 Amazon S3 S3 能依照儲存方案輕鬆達成每秒數千筆交易。
    儲存存取的輸送量與延遲 Amazon FSx for Lustre FSx for Lustre 與 S3 整合之下能提供高輸送量且持續低延遲的共享檔案儲存。
    集中位置的批次處理 Amazon Elastic File System (EFS) EFS 可提供直接從筆記本環境的輕鬆存取大型機器學習資料集或共享程式碼,無需佈建儲存,也不必為管理網路檔案系統煩心。
    暫時工作儲存的高輸入/輸出效能 Amazon Elastic Block Store (EBS) EBS 迎合高效能儲存需要,可達到個位數毫秒級延遲。

    全受管服務

    挑戰 AWS 解決方案 用的是什麼方式呢?
    實驗管理和追蹤 Amazon SageMaker Experiments 以簡單且可擴展的方式評估並編排訓練實驗,迅速地編排成千的訓練實驗、記錄實驗成品,及將模型視覺化。
    為模型偵錯 Amazon SageMaker Debugger 針對訓練程序中可能有哪些異常,分析偵錯資料,檢視視覺指標的視覺界面。
    模型調校 Amazon SageMaker 的自動模型調校 透過調校數千種不同的演算法參數組合,自動調校模型,進而建立最準確的預測結果。
  • 部署
  • 一旦您完成訓練,依照所需的準確度和精度將模型優化後,即可投入生產,進行預測。推論實際上佔去絕大多數的機器學習成本。根據客戶表示,機器學習推論在執行機器學習工作負載時,可佔高達 90% 的整體營運成本。

    執行個體

    挑戰 AWS 解決方案 用的是什麼方式呢?
    高成本與低效能 Amazon EC2 Inf1 執行個體 Inf1 執行個體內建最多 16 顆 AWS Inferentia 晶片,這些高效能機器學習推論晶片是由 AWS 設計和建置。

    使用 NVIDIA 的 CUDA、CuDNN 或 TensorRT 程式庫的模型推論

    Amazon EC2 G5 執行個體

    G5 執行個體配備多達 8 個 NVIDIA A10G Tensor Core GPU,相對於 G4dn 執行個體,機器學習推理的效能最高高達 3 倍。

    使用 NVIDIA 的 CUDA、CuDNN 或 TensorRT 程式庫的模型推論 Amazon EC2 G4 執行個體 G4 執行個體配備 NVIDIA T4 GPU,能有比 CPU 更強高達 40 倍的低延遲輸送量。
    利用 Intel AVX-512 Vector Neural Network Instructions (AVX512 VNNI) 的模型推論 Amazon EC2 C5 執行個體 C5 執行個體內含 Intel AVX-512 VNNI,有助於加速典型的機器學習操作,例如卷積,而且能自動提高各種深度學習工作負載的推論效能。
    為推論加速進行適當規模調整,達到最佳性價比 Amazon Elastic Inference Elastic Inference 可讓您附加低成本的採用 GPU 技術加速至 Amazon EC2 執行個體.
    低延遲推論、本機資料處理或儲存需求
    AWS Outposts AWS Outposts 是一款全受管服務,能將 AWS 基礎設施、AWS 服務、API 和工具擴展至幾乎任何資料中心、主機代管空間或內部部署設施。

    擴展推論

    挑戰 AWS 解決方案 用的是什麼方式呢?
    基礎設施的複雜擴展 AWS Cloudformation CloudFormation 可讓您使用編程語言或簡單的文字檔以自動且安全的方式,在所有區域和帳戶為應用程式所需的資源建立模型並進行佈建。
    基礎設施的可擴展性無法預測 AWS Auto Scaling AWS Auto Scaling 可監控應用程式並自動調整容量,盡可能以最低成本維持穩定、可預測的效能。
    EC2 執行個體的用量無法預測 Amazon EC2 機群 透過單一 API 呼叫,您可以在不同 EC2 執行個體類型和購買模式之間佈建容量,以達到所需的規模、效能及成本。
    確保模型準確度 Amazon SageMaker Model Monitor 持續監控生產中的機器學習模型品質,一旦模型品質出現異常,就會向您提醒模型品質的異常處,無需建置更多工具。
    管理推論成本 Amazon SageMaker 多模型端點 只需點選一次單一端點,就能以可擴展且經濟實惠的方式部署大量模型,並利用單一服務容器,執行多項服務。
Toyota

「P3 執行個體協助我們將訓練機器學習模型的時間從數日縮短為數小時,現在也期待利用 P4d 執行個體作為更多 GPU 記憶體和更高效的浮點格式,能讓我們以還要更快的速度訓練更加複雜的模型。」

Intuit

Intuit 充分採用 AWS,並以 AWS 為提供客戶更好的服務。Intuit 使用 Amazon SageMaker 快速且大規模地訓練機器學習模型,將部署模型所需的時間減少百分之 90。進一步了解。

GE Healthcare

「以先前的 GPU 叢集,得花數日時間才能完成複雜 AI 模型 (例如 Progressive GAN) 的訓練,用以模擬和檢視結果。使用新的 P4d 執行個體,能將處理時間從數日縮短為數小時。我們見到訓練模型加快了兩到三倍的速度。」

Capital One

Capital One 可透過機器學習將資料轉變為洞察,可讓公司代表其客戶快速創新。Capital One 使用 Amazon S3 等 AWS 服務增強其機器學習創新。進一步了解。

Zillow

Zillow 以 Amazon EMR 上的 Spark 執行機器學習 (ML) 演算法,能迅速建立可擴展的叢集,並利用分散式處理能力以近乎即時的速度處理大型資料集、建立功能,訓練並達成數百萬計的機器學習 (ML) 模型。進一步了解。

數字統計

效能

更好 2.5 倍

與上一代 P3 執行個體相較之下,P4d 的深度學習效能,為雲端最高效能。

效能

62 分鐘

為訓練 BERT 的創記錄時間,是以 TensorFlow 使用 256 P3dn.24xlarge 執行個體與 2,048 GPU 所達成。

低成本

降低 40%

與 G4 執行個體相較,Inf1 執行個體的每推論成本,為雲端最低的每推論成本。

供應情形

全球 22 個

地理區域,有多達 69 個可用區域提供許多 AWS Machine Learning 基礎設施服務。

優勢

  • 高效能
  • 資料科學家和機器學習 (ML) 工程師的開發效率經常受限於能以什麼樣的頻率訓練深度學習模型,以納入新功能、提高預測準確度,或因應資料偏離加以調整。AWS 提供高效能運算、聯網及儲存基礎設施,依用量計費廣泛提供,讓開發團隊能按需訓練模型,不讓基礎設施阻撓其創新。

    運算:讓訓練時間降為數分鐘,使您的推論效果突飛猛進

    AWS 提供了業界首個專為機器學習訓練和推理打造的執行個體。

    採用 AWS Trainium 晶片的 Amazon EC2 Trn1 執行個體專為高效能、經濟實惠的深度學習訓練而打造。這些執行個體提供業界領先的效能,同時與同類基於 GPU 的執行個體相比,可節省高達 50% 的訓練成本。Trn1 執行個體採用多達 16 顆 AWS Trainium 晶片。每顆晶片內含兩個專為深度學習演算法打造的第二代 NeuronCore 加速器。Trn1 執行個體是首個具有高達 800 Gbps 的 Elastic Fabric Adapter (EFA) 網路頻寬的 EC2 執行個體。它們部署在 EC2 UltraClusters 中,支援擴展到 30,000 個 Trainium 加速器,後者與非阻欄式 PB 級網路互連,可提供高達 6.3 EFLOPS 的運算效能。

    Amazon EC2 Trn1

    為了在生產中部署受過訓練的模型,Amazon EC2 Inf1 執行個體帶來雲端內的高效能和最低成本機器深度學習推論。這些執行個體內建 AWS Inferentia 晶片,這些高效能機器學習推論晶片是由 AWS 設計和建構。Inf1 執行個體的每個執行個體內含 1 至 16 顆 AWS Inferentia 晶片,可擴展效能至最高每秒 2,000 兆次運算 (TOPS)。

    Amazon EC2 Inf1

    聯網:高效分散式訓練或水平擴展推論的可擴展基礎設施

    訓練大型模型需要時間,模型越大、越複雜,訓練所花的時間越長。AWS 有數個聯網解決方案可協助客戶擴展多節點部署,縮短訓練時間。Elastic Fabric Adapter (EFA) 是 Amazon EC2 執行個體適用的網路界面,可讓客戶在 AWS 上大規模執行需要高層級節點間通訊的應用程式。其客製化的作業系統 (OS) 旁路硬體界面,可提升執行個體間通訊的效能,對於高效擴充至關重要。使用 EFA,採用 NVIDIA Collective Communications Library (NCCL) 的機器學習訓練應用程式可擴展至數千個 GPU。 配合以每執行個體多達 400 Gbps 網路頻寬與可在執行個體之間進行低延遲 GPU 與 GPU 通訊的 NVIDIA GPUDirect RDMA (遠端直接記憶體存取),您可藉由 AWS 雲端隨需的彈性與靈活性,享有昂貴的內部部署 GPU 叢集的效能。

    Page-Illo_EC2 Overviews and Features_Enhanced Networking and EFA.png

    儲存:建立資料湖或管理標示資料的理想選項

    各行各業不同規模的組織紛紛開始使用資料湖,將必須管理成本的資料轉型為商業資產,在機器學習的協助之下能衍生寶貴的商業洞察,或增強客戶體驗。Amazon Simple Storage Service (S3) 是最大和最具效能的物件儲存服務,用於結構化和非結構化資料,也是建置資料湖的優選儲存服務。使用 Amazon S3,您可以在安全的環境中以經濟實惠的方式建置和擴展任何大小的資料湖,而資料會受 99.999999999% (11 9s) 耐用性的保護。對於分散式訓練,如您需要加快存取標示的資料,Amazon FSx for Lustre 的效能經過優化,有毫秒以內的延遲,且輸送量可擴展為每秒數百 GB。FSx for Lustre 與 Amazon S3 整合,能輕鬆用 Lustre 檔案系統處理資料集。連結至 S3 儲存貯體時,FSx for Lustre 檔案系統會以透明的方式以檔案呈現 S3 物件,讓您將變更的資料寫回 S3。

    Amazon Simple Storage Service (S3)
  • 經濟實惠
  • 各家組織正在迅速採用深度學習,建置前所未見的應用程式。加上模型複雜度快速增加,建置、訓練和部署機器學習應用程式的成本也迅速累積。隨著企業從利用機器學習進行探索和實驗轉為大規模部署應用程式,AWS 為整個應用程式開發生命週期,提供效能與低成本基礎設施服務的理想組合。

    業界機器學習 (ML) 推論的最低成本

    機器學習推論在生產中執行機器學習應用程式時,可佔高達 90% 的整體營運成本。Amazon EC2 Inf1 執行個體帶來雲端內的高效能和最低成本機器學習推論。Inf1 執行個體是從基礎開始建置,並支援機器學習推論應用程式。內建最多 16 片 AWS Inferentia 晶片,這些高效能機器學習推論晶片是由 AWS 設計和建置。每個 AWS Inferentia 晶片各可在低功率下支援高達 128 TOPS (每秒萬億次運算) 的效能,高效達到高效能。

    Amazon EC2 Inf1

    對於在生產中需要以 GPU 執行模型的應用程式,Amazon EC2 G4 執行個體是業界最經濟實惠的 GPU 執行個體。這些執行個體內建 NVIDIA T4 GPU,有各種大小可用,可以存取一個 GPU 或包含不同數量 vCPU 與記憶體的多個 GPU,給您靈活性,可為應用程式選擇適當大小的執行個體。

    Amazon EC2 G4

    機器學習模型彼此不盡相同,不同的模型可自不同層級的硬體加速受益。以 Intel 為基礎的 Amazon EC2 C5 執行個體為 Amazon EC2 系列中每 vCPU 單位價格最低的產品,適合執行進階的運算密集工作負載。這些執行個體可支援 Intel Deep Learning Boost,能為生產中執行機器學習 (ML) 模型達成理想的性價平衡。

    Amazon EC2 C5

    Amazon Elastic Inference 可讓您將低成本的 GPU 支援加速功能附加到 Amazon EC2 執行個體、Amazon SageMaker 執行個體或 Amazon ECS 任務,最多可節省 75% 執行深度學習推論的成本。

    Amazon Elastic Inference

    廣泛的 GPU 執行個體選擇,能優化訓練時間與成本,可大規模提供

    取決於機器學習應用程式類型,客戶偏好將開發週期優化為縮短訓練機器學習 (ML) 模型所需的時間,或是降低訓練總成本。大多數情況下,訓練成本所包含的不僅只有訓練費用,也包括機器學習 (ML) 工程師和資料科學家優化模型所花費之閒置時間的機會成本。

    Amazon EC2 G4 執行個體提供業界最經濟實惠的 GPU 平台。這些執行個體最適合訓練較不複雜的模型,是對訓練時間較不敏感的企業或機構的理想選擇。使用 G4 執行個體可存取多達八個 NVIDIA T4 GPU,各可發揮高達 65 TFLOP 的 FP16 效能。

    Amazon EC2 G4

    Amazon EC2 P4 執行個體有一流的單執行個體與分散式訓練效能,工程團隊能大幅降低模型重複使用次數、加快上市時間,優化整體工程設計開支。這些執行個體能比上一代 P3 執行個體降低高達 60% 成本,並能經由所有 EC2 定價選項部署,使用 Spot 可享高達 90% 折扣。因為 GPU 和硬體機器學習 (ML) 加速器的效能每 18 個月至少提升 2 倍,以依用量計費模式使用 AWS Infrastructure,即可享有最佳性價比,同時也不必為保質期有限的現場部署叢集鎖定寶貴的 CapEx。

    Amazon EC2 P4

    Amazon EC2 P3 與 P3dn 執行個體提供雲端環境的高效能運算技術,配備高達 8 個 NVIDIA® V100 Tensor 核心 GPU 和 100 Gbps 的聯網輸送量,能支援機器學習和 HPC 應用程式。每個執行個體可提供高達 1 Petaflop 的混合精度,能大幅加快機器學習和高效能運算應用程式的速度。P3 與 P3dn 執行個體有 4 種大小,提供多達 8 個 GPU 和 96 個 vCPU,於全球 18 個 AWS 區域可供使用。

    Amazon EC2 P3 和 P3dn 執行個體
  • 高度有彈性
  • 支援所有主要的機器學習架構

    諸如 TensorFlow 和 PyTorch 這些架構能讓開發人員專注在模型的整體邏輯和資料流上,可從建置機器學習 (ML) 模型的實施過程中提取許多細節。正在建置機器學習應用程式的公司中,超過 70% 表示,其工作團隊混用各種機器學習 (ML) 架構。AWS 機器學習 (ML) 基礎設施支援所有常用深度學習架構,可讓您的團隊視其偏好與開發效率選擇適當的架構。

    TensorFlow
    PyTorch
    mxnet
    Keras
    Gluon
    Horovod

    置入架構之下的優化

    AWS 致力於讓客戶不僅能在 AWS 上執行其機器學習 (ML) 工作負載,也有極致的自由能選擇最適合的機器學習 (ML) 架構或基礎設施服務。在 AWS Infrastructure Services 上高效訓練及部署模型的軟體最佳化與最常用的機器學習 (ML) 架構 (TensorFlow、PyTorch 和 MXNet) 整合,客戶能繼續使用偏好的架構,不受限於特定架構/或硬體架構。因為是在架構層級操作,客戶能自由依照需要選擇最佳解決方案,不侷限於特定硬體架構或雲端供應商。

    AWS Neuron 是 AWS Inferentia 和 AWS Trainium 晶片的軟體開發套件。藉由使用 AWS Neuron,您可以使用基於 AWS Trainium 技術的 Amazon EC2 Trn1 執行個體來執行高效能且經濟實惠的機器學習訓練。您也可以使用基於 AWS Inferentia 的 Amazon EC2 Inf1 執行個體來執行高效能且低延遲的推理。AWS Neuron 原生與常見架構,例如 TensorFlow、PyTorch 和 MXNet 相整合。要加速使用 EC2 Trn1 執行個體的訓練和使用 EC2 Inf1 執行個體的推理,您可以使用預先訓練的模型,並且只需在架構中更改幾行程式碼。

    AWS Neuron

    為支援高效的多節點/分散式訓練,AWS 已將 Elastic Fabric Adapter (EFA) 與 NVIDIA Collective Communications Library (NCCL) 整合,後者為單一節點內或遍及多個節點之間,多個 GPU 彼此通訊之用的程式庫。與 AWS Neuron 類似,客戶可繼續使用自選機器學習 (ML) 架構以建置模型,利用 AWS Infrastructure 背後的優化。

    Nvidia

定價選項

機器學習訓練和推論工作負載能展現穩定狀態 (例如大量人口相片的每小時批次標記)、頻現峰值 (例如展開新訓練任務或於促銷期間搜尋推薦),或兩者兼具的特性。AWS 有定價選項和解決方案能協助您優化基礎設施的效能和成本。

定價選項

 

 

A – 使用 Spot 執行個體執行彈性、容錯的工作負載,例如無時間急迫性的機器學習 (ML) 訓練任務

B - 使用隨需執行個體執行新或有狀態尖峰工作負載,例如短期機器學習 (ML) 訓練任務

C - 使用 Savings Plans 執行已知/狀態穩定的工作負載,例如穩定的推論工作負載

使用案例 AWS 解決方案 用的是什麼方式呢?
短期訓練任務 隨需定價 使用隨需執行個體只需依執行的執行個體,支付每小時或每秒的運算容量費用。
開始與停止時間有彈性的訓練任務 Spot 定價 Amazon EC2 Spot 執行個體可讓您請求備用 Amazon EC2 運算容量,最高可享有隨需價格 90% 的折扣。
長期於各種執行個體類型執行穩定的機器學習工作負載 Savings Plans Savings Plans 透過隨需價格提供大幅節省,以換取 1 或 3 年期運算能力的特定用量承諾。