- 運算›
- Amazon EC2›
- 容量區塊
為何選擇適用於 ML 的 EC2 容量區塊?
有了用於 ML 的 Amazon 彈性運算雲 (Amazon EC2) 容量區塊,您可以輕鬆保留加速運算執行個體以備未來的開始日期。容量區塊支援亞馬遜 EC2 P6e-GB200、P6-B200 、P 5en、P 5e 、P 5 和 P4d 執行個體,分別由最新的 NVIDIA 黑威 GPU、NVIDIA H200 張力核心 GPU、NVIDIA H100 張力核心 GPU 和 NVIDIA A100 張力核心 GPU 加速,以及由 AWS Trainium 提供支援的 Trn2 和 Trn1 執行個體。 EC2 容量區塊位於專為高效能機器學習 (ML) 工作負載而設計的亞馬遜 EC2 UltraCluster 中。您可以預留加速運算執行個體的時間最多為六個月,叢集大小為 1 至 64 個執行個體 (512 個 GPU 或 1024 個 Trainium 晶片),讓您靈活地執行各種 ML 工作負載。EC2 容量區塊最多可提前八週預留。
優勢
確保未來可用於加速運算執行個體的容量,有自信地規劃您的 ML 開發。
透過 Amazon EC2 UltraClusters 中的主機代管,取得低延遲、高輸送量網路連線,以進行分散式訓練。
在 Amazon EC2 中獲得最高效能的加速運算執行個體的可預測存取權,以進行機器學習。
使用案例
取得您保留之加速運算執行個體的不間斷存取權,以完成 ML 模型訓練和微調。
由容量區塊提供支援的 Amazon SageMaker HyperPod 靈活訓練計劃可根據您的訓練需求自動預留和執行跨多個運算容量區塊的訓練任務,協助您滿足模型訓練時間表和預算要求。
執行實驗並建置需要短時間加速運算執行個體的原型。
保留適當的容量來為客戶提供服務,滿足您的成長需求。
NVIDIA
「隨著世界各地的企業採用生成式 AI 來重塑業務,對加速運算的需求正在指數增長。借助 AWS 新的 EC2 機器容量區塊,全球 AI 公司現在不僅可以一次租用一台伺服器,而且可以在 AWS 上獨有的專用規模租用,讓他們能夠快速且符合成本效益的方式訓練大型語言模型,並在需要時在雲端執行推論。「
伊恩·巴克,NVIDIA 高效能運算副總裁
阿尔西
「Arcee 提供了一個 AI 平台,可以開發和推進我們作為 SLM 的產品 —— 小型、專門、安全且可擴展的語言模型。適用於 ML 的 Amazon EC2 容量區塊是我們在 AWS 上訓練 SLM 的 ML 運算環境中重要的一部分,因為它們可以在需要時為我們提供可靠的 GPU 容量存取。這又意味著我們的內部團隊和我們的客戶都可以從這樣的靈活性中受益。知道我們可以在幾天內獲得一組 GPU,而且沒有長期承諾,對我們來說已經改變了遊戲。「
Arcee 執行長暨共同創辦人 Mark McQuade
擴增合作夥伴
「我們與多位創始人合作,他們利用深度學習和大型語言模型,將突破性的創新引入市場。我們相信可預測且及時的 GPU 運算容量存取是讓眾多創辦人不僅能夠快速將其想法付諸實現,而且還能繼續反覆實現他們的願景並為客戶提供越來越多價值的基礎。在目前供應受限的環境中,透過 EC2 容量區塊提供多達 512 個 NVIDIA H100 GPU 改變了遊戲規則,因為我們相信可以在新創公司需要時為他們提供所需的 GPU 運算容量,而無需承擔長期資本承諾。我們期待透過運用 GPU 容量區塊及其業界領先的機器學習和生成人工智慧服務產品組合來支援 AWS 的創始人。「
Amplify Partners 營運合作伙伴 Mark LaRosa
Canva
「今天,Canva 為每月超過 150 萬使用者提供能力,創建引人入勝的視覺資產,可以在任何地方發佈。我們一直以來使用 EC2 P4de 執行個體訓練多模式模型,這些模型可為新的生成式 AI 工具提供支援,讓我們的使用者能夠自由快速地實驗想法。當我們希望訓練更大型的模型時,我們需要能夠在訓練執行期間可預測地擴展數百個 GPU 的能力。看到 AWS 推出支援 P5 執行個體的 EC2 容量區塊著實令人興奮。現在,我們可以在低延遲 EC2 UltraCluster 中最多 512 個 NVIDIA H100 GPU 進行預測的存取,以訓練比以往更大型的機型。'
Canva 資料平台主管 Greg Roodt
儀表板
「Dashtoon 將尖端 AI 與創造力融合,將故事講者變成無論他們的藝術技能或技術知識如何,都可以創建數字漫畫的藝術家,打破了插圖內容創作的傳統障礙。我們每月有超過 8 萬的活躍使用者 (MAU) 使用我們的應用程式來取用漫畫,而我們的創作者每天在 Dashtoon Studio 上生成超過 10 萬幅影像。自從成立以來,我們一直都是使用 AWS,我們使用 Amazon EC2 P5 執行個體來訓練和微調多模式模型,包括 Stable Diffusion XL、GroundingDINO 和 Segment Anything。我們看到使用採用 NVIDIA H100 GPU 的 P5 執行個體,與使用採用 NVIDIA A100 GPU 驅動的等效 P4d 執行個體相比,效能提升了 3 倍。我們的訓練資料集有多種大小,當我們希望擴展模型訓練時,適用於 ML 的 Amazon EC2 容量區塊可以靈活地以可預測、低前置時間 (最快隔天提供) 來滿足我們的 GPU 需求,協助我們縮短為使用者發佈新功能的時間。我們很高興能繼續利用 EC2 容量區塊來加速我們的創新。「
Dashtoon 共同創辦人暨技術長 Soumyadeep Mukherjee
Leonardo.Ai
「Leonardo 的團隊善用生成式 AI,讓創意專業人士和愛好者能夠以無與倫比的品質、速度和風格一致性來製作視覺資產。我們的基礎在於一套微調的 AI 模型和強大的工具,在點擊生成之前和之後都能提供精細的控制。我們利用各種 AWS 服務,不僅能夠建置和訓練我們的模型,還可以託管它們,以支援每月數百萬名活躍客戶的使用情況。我們很高興適用於 ML 的 EC2 容量區塊推出。它使我們能夠彈性地存取 GPU 容量以進行訓練和實驗,同時保留切換到可能更好地滿足我們運算需求的不同 EC2 執行個體的選項。「
Leonardo.Ai 技術長 Peter Runham
十月 AI
「在 OctoAI,我們使應用程式建構者能夠輕鬆執行、調整和擴充生成人工智慧,最佳化模型執行,並使用自動化擴充其服務並降低工程負擔。我們能夠在短時間內向上擴展 GPU 容量的能力至關重要,尤其是當我們與希望在產品推出過程中,從零到數百萬名使用者快速擴展其 ML 應用程式的客戶合作時。機器學習的 EC2 容量區塊使我們能夠預測地啟動不同大小的 GPU 叢集,以符合客戶計劃的擴展,同時與長期容量承諾或部署內部部署相比,可以節省潛在成本。「
OctoAI 執行長 Luis Ceze
浮潛
「Snorkel 的 AI 數據開發平台幫助企業快速創建和使用 AI。數量越來越多,包括將資訊從運算密集型 LLM 提取到較小的專業模型,在開發過程中需要短期運算暴增。適用於 ML 的 EC2 容量區塊有可能比現有選項帶來重大改進,以獲得 GPU 容量。保證存取短期 GPU 容量,以及 EC2 UltraCluster 的高網路效能,是企業現在和未來幾年需要支援的 AI 開發工作流程的關鍵因素。「
Snorkel 共同創辦人暨技術長 Braden Hancock