跳至主要內容

Amazon EC2 容量區塊

適用於 ML 的 Amazon EC2 容量區塊

在 Amazon EC2 UltraClusters 中預留加速運算執行個體以執行 ML 工作負載

為何選擇適用於 ML 的 EC2 容量區塊?

藉助適用於 ML 的 Amazon Elastic Compute Cloud (Amazon EC2) 容量區塊,您可以輕鬆地針對未來的開始日期預留加速運算執行個體。容量區塊支援分別由最新 NVIDIA Blackwell GPU、NVIDIA H200 Tensor Core GPU、NVIDIA H100 Tensor Core GPU 和 NVIDIA A100 Tensor Core GPU 提供支援的 Amazon EC2 P6e-GB200P6-B300P6-B200P5enP5eP5P4d 執行個體,以及採用 AWS Trainium 技術的 Trn2Trn1 執行個體。EC2 容量區塊是共置於為高效能機器學習 (ML) 工作負載所設計的 Amazon EC2 UltraClusters。您可以預留加速運算執行個體的時間最多為六個月,叢集大小為 1 至 64 個執行個體 (512 個 GPU 或 1024 個 Trainium 晶片),讓您靈活地執行各種 ML 工作負載。EC2 容量區塊最多可提前八週預留。  組織可在多個帳戶間共用容量區塊。

優勢

    確保未來可用於加速運算執行個體的容量,有自信地規劃您的 ML 開發。

    透過 Amazon EC2 UltraClusters 中的主機代管,取得低延遲、高輸送量網路連線,以進行分散式訓練。

    在 Amazon EC2 中獲得最高效能的加速運算執行個體的可預測存取權,以進行機器學習。

使用案例

    取得您保留之加速運算執行個體的不間斷存取權,以完成 ML 模型訓練和微調。

    由容量區塊提供支援的 Amazon SageMaker HyperPod 靈活訓練計畫可根據您的訓練要求自動預留和執行跨多個運算容量區塊的訓練任務,進而協助您滿足模型訓練時間表和預算要求。

    執行實驗並建置需要短時間加速運算執行個體的原型。

    保留適當的容量來為客戶提供服務,滿足您的成長需求。

NVIDIA

「隨著世界各地的企業採用生成式 AI 來重塑業務,對加速運算的需求正在指數型成長。藉助 AWS 新的適用於 ML 的 EC2 容量區塊,全世界的 AI 公司現在不僅可以透過一次一部伺服器的方式來租用 H100,還可以在 AWS 上以獨有的專用規模租用 — 讓他們以快速且符合成本效益的方式訓練大型語言模型,並且在需要時於雲端執行推論。」

NVIDIA HPC 運算副總裁 Ian Buck

Missing alt text value

Arcee

「Arcee 提供了一個 AI 平台,可以開發和推進我們作為 SLM 的產品:小型、專業、安全且可擴展的語言模型。適用於 ML 的 Amazon EC2 容量區塊是我們在 AWS 上訓練 SLM 的 ML 運算環境中重要的一部分,因為它們可以在需要時為我們提供可靠的 GPU 容量存取。這又意味著我們的內部團隊和我們的客戶都可以從這樣的靈活性中受益。知道我們可以在幾天內獲得一組 GPU,而且不用長期承諾,對我們來說改變了遊戲規則。」

Arcee 執行長暨共同創辦人 Mark McQuade

Missing alt text value

擴增合作夥伴

「我們與多位創辦人合作,他們利用深度學習和大型語言模型,將突破性創新帶入市場。我們相信可預測且及時的 GPU 運算容量存取是讓眾多創辦人不僅能夠快速將其想法付諸實現,而且還能繼續反覆實現他們的願景並為客戶提供越來越多價值的基礎。在目前供應受限的環境中,透過 EC2 容量區塊提供多達 512 個 NVIDIA H100 GPU 改變了遊戲規則,因為我們相信可以在新創公司需要時為他們提供所需的 GPU 運算容量,而無需承擔長期資本承諾。我們期待透過運用 GPU 容量區塊及其領先業界的機器學習和生成式 AI 服務產品組合,為在 AWS 上建置的創辦人提供支援。」

Amplify Partners 營運合作伙伴 Mark LaRosa

Missing alt text value

Canva

「現今 Canva 讓每月超過 1.5 億名活躍使用者建立引人入勝的視覺資產,可以在任何地方發布。我們一直以來使用 EC2 P4de 執行個體訓練多模式模型,這些模型可為新的生成式 AI 工具提供支援,讓我們的使用者能夠自由快速地實驗想法。當我們希望訓練更大型的模型時,我們需要能夠在訓練執行期間可預測地擴展數百個 GPU 的能力。看到 AWS 推出支援 P5 執行個體的 EC2 容量區塊著實令人興奮。現在我們可以在低延遲 EC2 UltraCluster 中取得最多 512 個 NVIDIA H100 GPU 的可預測存取,以訓練比以往更大型的模型。」

Canva 資料平台主管 Greg Roodt

Missing alt text value

Dashtoon

「Dashtoon 將尖端 AI 與創造力融合,讓只是說故事的人變身為藝術家,不論他們的藝術技能和技術知識有多少,都能創作數位漫畫,打破插圖內容創作的傳統藩籬。我們每月有超過 8 萬的活躍使用者 (MAU) 使用我們的應用程式來取用漫畫,而我們的創作者每天在 Dashtoon Studio 上生成超過 10 萬幅影像。自從成立以來,我們一直都是使用 AWS,我們使用 Amazon EC2 P5 執行個體來訓練和微調多模式模型,包括 Stable Diffusion XL、GroundingDINO 和 Segment Anything。我們看到使用採用 NVIDIA H100 GPU 的 P5 執行個體,與使用採用 NVIDIA A100 GPU 驅動的等效 P4d 執行個體相比,效能提升了 3 倍。我們的訓練資料集有多種大小,當我們希望擴展模型訓練時,適用於 ML 的 Amazon EC2 容量區塊可以靈活地以可預測、低前置時間 (最快隔天提供) 來滿足我們的 GPU 需求,進而協助我們縮短為使用者發布新功能的時間。我們很高興能繼續利用 EC2 容量區塊來加速我們的創新。」

Dashtoon 共同創辦人兼技術長 Soumyadeep Mukherjee

Missing alt text value

Leonardo.ai

「Leonardo 的團隊善用生成式 AI,讓創意專業人士和愛好者能夠以無與倫比的品質、速度和風格一致性來製作視覺資產。我們的基礎在於一套微調的 AI 模型和強大的工具,在點擊生成之前和之後都能提供精細的控制。我們利用各種 AWS 服務,不僅能夠建置和訓練我們的模型,還可以託管它們,以支援每月數百萬名活躍客戶的使用情況。我們很高興適用於 ML 的 EC2 容量區塊推出。它使我們能夠彈性地存取 GPU 容量以進行訓練和實驗,同時為我們保留選項,得以切換到可能更能夠滿足我們運算需求的不同 EC2 執行個體。」

Leonardo.Ai 技術長 Peter Runham

Missing alt text value

OctoAI

「在 OctoAI,我們使應用程式建構家能夠輕鬆執行、調整和擴展生成式 AI,最佳化模型執行,以及使用自動化擴展其服務並降低工程負擔。我們能夠在短時間內向上擴展 GPU 容量的能力至關重要,尤其是當我們與希望在產品推出過程中,從零到數百萬名使用者快速擴展其 ML 應用程式的客戶合作時。適用於 ML 的 EC2 容量區塊讓我們能夠預測地啟動不同大小的 GPU 叢集,以符合客戶規劃的向上擴展,同時與長期容量承諾或部署內部部署相比,可以節省成本。」

OctoAI 執行長 Luis Ceze

Missing alt text value

Snorkel

Snorkel 的 AI 資料開發平台協助企業快速建立和使用 AI。「數量越來越多,包括將資訊從運算密集型 LLM 提取到較小的專業模型,在開發過程中需要短期運算暴增。適用於 ML 的 EC2 容量區塊有可能比現有選項帶來重大改進,以獲得 GPU 容量。保證存取短期 GPU 容量,以及 EC2 UltraCluster 的高網路效能,是企業現在和未來幾年需要支援的 AI 開發工作流程的關鍵因素。」

Snorkel 共同創辦人兼技術長 Braden Hancock

Missing alt text value