跳至主要內容

Amazon EC2

Amazon EC2 DL1 執行個體

低訓練成本深度學習模型

為什麼選擇 Amazon EC2 DL1 執行個體?

Amazon EC2 DL1 執行個體由 Habana Labs (Intel 旗下公司) 提供的 Gaudi 加速器驅動,為自然語言處理、物件偵測和影像識別使用案例提供低訓練成本的深度學習模型。相較於目前的基於 GPU 的 EC2 執行個體,DL1 執行個體提供高達 40% 的更出色的價格效能比,用於訓練深度學習模型。

Amazon EC2 DL1 執行個體配備 8 個 Gaudi 加速器,每個加速器具有 32 GB 的高頻寬記憶體 (HBM)、768 GiB 的系統記憶體、定製的第二代 Intel Xeon 可擴充處理器、400 Gbps 的聯網輸送量和 4 TB 的本機 NVMe 儲存。

DL1 執行個體包括 Habana SynapseAI® SDK,可與領先的機器學習框架 (如 TensorFlow 和 PyTorch) 整合。

您可以輕鬆開始使用 DL1 執行個體,將 AWS Deep Learning AMIs 或 AWS Deep Learning Containers,或者 Amazon EKS 和 ECS 用於容器化應用程式。對 Amazon SageMaker 中 DL1 執行個體的支援即將推出。

全新 Amazon EC2 DL1 執行個體概觀影片

優勢

相較於最新的基於 GPU 的 EC2 執行個體,DL1 執行個體提供高達 40% 的更出色的價格效能比,用於訓練深度學習模型。這些執行個體配備專為訓練深度學習模型而建置的 Gaudi 加速器。您還可使用 EC2 Savings Plan 顯著降低深度學習模型的訓練成本,來進一步實現成本節省。

各個專業水準的開發人員都能輕鬆開始使用 DL1 執行個體。他們可以繼續使用自己的工作流程管理服務,透過使用 AWS DL AMI 和 DL 容器來開始使用 DL1 執行個體。進階使用者還可以使用 Gaudi 的可程式化設計 Tensor Processing Core (TPC),建置自訂內核以最佳化其模型效能。使用 Habana SynapseAI® 工具,他們只需最少的程式碼變更,即可將在基於 GPU 或 CPU 執行個體上執行的現有模型無縫遷移至 DL1 執行個體。

DL1 執行個體支援領先的 ML 架構,例如 TensorFlow 和 PyTorch,讓您能夠繼續使用偏好的 ML 工作流程。您可以在 Habana 的 GitHub 儲存庫中存取最佳化模型,例如用於物件偵測的 Mask R-CNN 和用於自然語言處理的 BERT,以快速建置、訓練和部署您的模型。SynapseAI 豐富的 Tensor Processing Core (TPC) 核心庫支援各種運算子和多種資料類型,以滿足一系列模型和效能需求。

功能

DL1 執行個體由 Habana Labs (Intel 旗下公司) 提供的 Gaudi 加速器驅動,配備八個完全可程式化設計的 TPC,且每個加速器 32 GB 的高頻寬記憶體。這些執行個體具有異構運算架構,以最大限度地提高訓練效率,以及用於矩陣數學運算的可設定集中式引擎。他們還在每個 Gaudi 加速器上整合了業界唯一的 10 個 100 Gigabit 以太網路連接埠,以實現加速器之間的低延遲通訊。

SynapseAI® SDK 包含圖形編譯器和執行時間、TPC 核心庫、韌體、驅動程式和工具。它與 TensorFlow 和 PyTorch 等領先架構整合。 其通訊庫使用當今用於 GPU 執行個體的相同操作,有助於快速擴充規模至多個加速器。這種確定性的擴展可提高各種神經網路拓撲的使用率和效率。 使用 SynapseAI® 工具,您能夠以最少的程式碼變更,將現有模型無縫遷移至 DL1 執行個體並執行。

DL1 執行個體為需要存取高速聯網的應用程式提供 400 Gbps 的網路輸送量,以及與 Amazon Elastic Fabric Adapter (EFA) 和 Amazon Elastic Network Adapter (ENA) 的連線。為了快速存取大型資料集,DL1 執行個體還包括 4 TB 的本機 NVMe 儲存,並提供 8 GB/秒的讀取輸送量。

DL1 執行個體建立在 AWS Nitro System 之上,這是一個豐富的建置區塊集合,可將許多傳統的虛擬化功能卸載到專用的硬體和軟體,以提供高效能、高可用性和高安全性,還能降低虛擬化的額外負荷。

產品詳細資訊

Instance Size
vCPU
Instance Memory (GiB)
Gaudi Accelerators
Network Bandwidth (Gbps)
Accelerator Peer-to-Peer Bidirectional (Gbps)
Instance Storage (GB)
EBS Bandwidth (Gbps)
On-demand (Price/Hr)
1-yr Reserved Instance Effective Hourly
3-yr Reserved Instance Effective Hourly*
dl1.24xlarge

96

768

8

400

100

4 x 1000 
NVMe SSD

19

13.11 USD

7.87 USD

5.24 USD

*顯示的價格適用於美國東部 (維吉尼亞北部) 和美國西部 (奧勒岡) 區域。

 

Seagate

40 多年來,Seagate Technology 一直是提供資料儲存和管理解決方案的全球領導者。Seagate 的數據科學和機器學習工程師已經建立了先進的深度學習 (DL) 缺陷檢測系統,並將其全球部署到公司的製造設施。 在最近的概念驗證專案中,Habana Gaudi 超出訓練 Seagate 生產中目前使用的 DL 語義分割模型之一的效能目標。 

「我們預期 Amazon EC2 DL1 執行個體的顯著價格效能優勢,該執行個體採用 Habana Gaudi 加速器提供支援,將來能夠為 AWS 運算叢集帶來引人注目的新增。隨著 Habana Labs 的不斷發展,並實現更廣泛的營運商覆蓋,有可能擴展至更多的企業使用案例,從而進一步節省成本。」

達雷爾·勞德,營運,技術和進階分析高級工程總監-Seagate
Missing alt text value

Leidos

Leidos 被公認為 10 大健康 IT 供應商,為醫院和衛生系統、生物醫學組織,以及每個專注於健康的美國聯邦機構提供範圍廣泛的可定製、可擴展的解決方案。 

「我們目前為醫療保健提升的眾多技術之一是使用機器學習和深度學習來進行基於醫療成像數據進行疾病診斷。我們的大量資料集需要及時有效的訓練,以協助研究人員解決一些最緊迫的醫學謎團。鑑於 Leidos 及其客戶需要對深度學習模型進行快速、簡單且經濟高效的訓練,我們很高興與 Intel 和 AWS 開始這一旅程,以使用 Habana Gaudi AI 處理器驅動的 Amazon EC2 DL1 執行個體。使用 DL1 執行個體,我們預計模型訓練速度和效率提高,並隨後降低研究和開發的風險和成本。「

切坦保羅,衛生和人類服務技術長-萊多斯
Missing alt text value

Intel

Intel 開發了 3D Athlete Tracking 技術,可即時分析運動員的動作影片,向表現訓練程序提供資訊,並增強比賽期間的觀眾體驗。

在由 Habana Labs 的高迪加速器提供支援的 Amazon EC2 DL1 執行個體上訓練我們的模型將使我們能夠準確可靠地處理數千個視訊並產生相關的效能資料,同時降低訓練成本。借助 DL1 執行個體,我們現在可以以所需的速度和成本進行訓練,以有效地為各種體育運動的各種級別的運動員、團隊和廣播公司提供生產力的服務。「

瑞克·埃切瓦里亞,銷售和營銷集團副總裁-英特爾
Missing alt text value

風險燃料

RiskFuel 為管理金融投資組合的公司提供即時估值和風險敏感度,幫助他們提高交易準確性和績效。

「兩個因素使我們使用以哈巴納高迪 AI 加速器為基礎的亞馬遜 EC2 DL1 執行個體。首先,我們希望確保銀行和保險客戶可以執行利用最新硬體的 Riskfuel 模型。幸運的是,我們發現將模型遷移至 DL1 執行個體非常簡單直接,實際上,只需變更幾行程式碼即可。第二,培訓成本是我們支出的重要組成部分,而且價格表現提高達 40% 的承諾可能為我們的盈利帶來了重大利益。「

瑞恩·弗格森,首席執行官-風險燃料
Missing alt text value

Fractal


Fractal 是人工智慧和分析領域的全球領導者,為財富 500 強公司的決策提供支援。
 

「AI 和深度學習是我們機器視覺能力的核心,使客戶能夠在我們服務的產業中做出更好的決策。為了提高準確性,資料集變得越來越大,也越來越複雜,需要更大型和更複雜的模型。這推動了對提高運算價格效能的需求。相較於基於 GPU 的 EC2 執行個體,新的 Amazon EC2 DL1 執行個體承諾顯著降低訓練成本。我們期望這將使雲端上 AI 模型的訓練比以往更具競爭力和易於使用,對於廣泛的客戶來說。「

斯里坎特·韋拉馬卡尼,集團首席執行官-分形
Missing alt text value

入門

The AWS Deep Learning AMIs (DLAMI) 與 AWS Deep Learning Containers (DLC)

The AWS Deep Learning AMIs (DLAMI) 與 AWS Deep Learning Containers (DLC) 為資料科學家、機器學習從業者和研究人員提供預裝深度學習架構的機器和容器映像,讓您跳過從頭開始建置和最佳化軟體環境的複雜程序。適用於 Gaudi 加速器的 SynapseAI SDK 已整合至 AWS DL AMI 和 DLC 中,讓您能夠快速開始使用 DL1 執行個體。

Amazon Elastic Kubernetes Service (EKS) 或 Elastic Container Service (ECS)

偏好經由容器協同運作服務自行管理容器化工作負載的客戶,可部署含有 Amazon EKS ECS 的 DL1 執行個體。

找到今天所需的資訊了嗎?

讓我們知道,以便我們改善頁面內容的品質