Amazon SageMaker HyperPod 客戶

各種規模的頂尖 AI 新創公司和組織正在 SageMaker HyperPod 上大規模訓練和部署基礎模型

  • Hugging Face

    Hugging Face 一貫使用 SageMaker HyperPod 建立重要的新型開放式基礎模型,例如下載次數已達數百萬的 StarCoder,IDEFICS 和 Zephyr。SageMaker HyperPod 的專用恢復能力和效能功能,使我們的開放科學團隊能夠專注於創新和發佈基礎模型建置方式的重要改進,而非管理基礎架構。我們特別欣賞 SageMaker HyperPod 能夠偵測 ML 硬體故障並快速更換故障的硬體,而不會中斷持續性的模型訓練。由於我們的團隊需要快速創新,這項自動化工作復原功能讓我們的基礎模型訓練過程得以盡量避免中斷,協助我們在一年內就節省了數百小時的訓練時間。

    Jeff Boudier,Hugging Face 的 Product head
  • Perplexity AI

    我們試著尋找合適的 ML 基礎架構來提高生產力和降低成本,以建置高效能的大型語言模型。在執行幾個成功的實驗後,我們從其他雲端供應商轉換到 AWS,以便使用 Amazon SageMaker HyperPod。過去四個月,我們一直使用 HyperPod 來建置和微調 LLM,以支援 Perplexity 對話式應答引擎,使其能回答問題並以引用的形式提供參考資料。由於 SageMaker HyperPod 會自動監控叢集運作狀態並修復 GPU 故障,因此我們的開發人員得以專注於模型建置,而無須費時管理及最佳化基礎架構。SageMaker HyperPod 的內建資料和模型平行程式庫協助我們最佳化 GPU 的訓練時間,並且讓訓練輸送量翻倍。因此,我們的訓練實驗現在能以加倍的速度完成,這代表開發人員能更快速地反覆運作,從而加速為客戶開發全新生成式 AI 體驗。

    Aravind Srinivas,Perplexity AI 的 co-founder and CEO
  • Articul8 AI

    閱讀案例研究

    Amazon SageMaker HyperPod 任務治理功能有助於在各個團隊和專案中最大限度地提高 GPU 使用率。作為一家快速發展的 GenAI 新創公司,Articul8 AI 不斷最佳化其運算環境,盡可能高效地分配經過加速的運算資源。有了 SageMaker HyperPod 的自動化任務排序和資源分配功能,他們藉由顯著改善 GPU 使用率來減少閒置時間,並透過最佳化從訓練、微調到推理的各項任務,加快了模型開發流程。自動將資源轉移至高優先權任務的功能,提高了 Articul8 AI 團隊的生產力,使其能夠以前所未有的速度,將新的 GenAI 創新產品推向市場。

    Amazon SageMaker HyperPod 大大地協助我們更有效率地管理和操作我們的運算資源,同時將停機時間降至最低。我們是 Slurm 型 HyperPod 服務的早期採用者,並受益於其易用性和彈性功能,使生產力提高了 35%,並快速擴展了 GenAI 營運規模。作為 Kubernetes 一員,我們現在很高興歡迎 Amazon EKS 推出對 SageMaker HyperPod 的支援。這對我們來說是一個遊戲規則改變者,因為它與我們現有的訓練管道無縫整合,使我們甚至能夠更輕鬆地管理和操作大規模 Kubernetes 叢集。此外,這對我們的最終客戶也有幫助,因為我們現在能夠將此功能封裝並產品化到 GenAI 平台中,使我們的客戶能夠以更簡化的方式執行自己的培訓和微調工作負載。

    Arun Subramaniyan,Articul8 AI 創始人兼執行長
  • Thomson Reuters

    閱讀部落格

    Thomson Reuters 是一家 AI 和內容導向的全球技術公司,致力於測試 Amazon SageMaker HyperPod 中的任務治理功能,以解決與工作負載排序有關的關鍵挑戰。透過任務治理功能,Thomson Reuters 現在可以在持續進行自身模型開發專案的同時,管理客戶工作負載 (例如推論請求),確保在不中斷內部研究的情況下優先處理緊急的客戶要求,從而提高資源使用率和客戶滿意度。「我們能夠使用 Amazon SageMaker HyperPod 來滿足我們的大型語言模型訓練需求。」Thomson Reuters Labs 傑出工程師 John Duprey 表示:「在 SageMaker HyperPod 上使用 Amazon EKS,我們能夠向上擴展容量並輕鬆執行訓練任務,從而在法律摘要和分類等領域發揮 LLM 的優勢。」

    Thomson Reuters 30 多年來在 AI 開發方面始終位居要角,我們致力於提供實質性的解決方案,協助客戶更妥善地存取值得信賴的資訊,以期能更快實現目標。為了加速我們在生成式 AI 方面的創新,除了與 LLM 供應商合作以外,我們也利用自身獨特的專有內容和人類專業知識,更有效地探索自訂模型的訓練。SageMaker HyperPod 的分散式訓練程式庫可協助我們提高大規模模型訓練的效能。此外,其恢復能力讓我們的基礎架構監控和管理更為省時。在 SageMaker HyperPod 上訓練我們的基礎模型可以加快上市時程,並協助我們適時為客戶提供優質的解決方案。

    Thomson Reuters Labs 的 AI 和實驗室主管 Joel Hron、傑出工程師 Thomson Reuters 和 John Duprey
  • Stability AI

    作為領先的開放原始碼生成式 AI 公司,我們的目標是將現代 AI 的可存取性最大化。我們著手建置具有數百億個參數的基礎模型,而這些模型需要能夠擴展最佳化訓練效能的基礎架構。透過 SageMaker HyperPod 的受管基礎架構和最佳化程式庫,我們可以將訓練時間和成本降低 50% 以上。據此,我們的模型訓練更具彈性和效能,而能夠更快速地建置最先進的模型。

    Emad Mostaque,Stability AI 的 Founder and CEO
  • Recursal AI

    整個過程都簡化了。使用 SageMaker HyperPod,我們可以利用叢集彈性功能,在發生硬體故障時識別問題並自動從上次儲存的檢查點復原訓練任務。我們以 Kubernetes 作為一般執行緒執行非常多樣化的工作負載,包括應用、推理和訓練。對我們來說,Amazon EKS 搭配 SageMaker HyperPod 就可以運作:節點只需放入我們的叢集即可。

    Nathan Wilce,Recursal 的 Infrastructure/data lead
  • Hippocratic AI

    Hippocratic AI 是一家 AI 公司,開發醫療保健業界首個以安全為重點的大型語言模型 (LLM)。為了訓練其主要的 LLM 和監督模型,Hippocratic AI 需要需求量極高且難以獲得的強大運算資源。Amazon SageMaker HyperPod 彈性訓練方案使其能夠更輕鬆地存取 Amazon Elastic Compute Cloud (Amazon EC2) P5 執行個體。HippocraticAI 還利用 Grafana 等 AWS 服務來追蹤重要的 GPU 使用率指標。透過 Amazon EC2 P5 執行個體,Hippocratic AI 將模型訓練速度提高至四倍,並擴展其解決方案以滿足數百個使用案例。Amazon EC2 P5 執行個體幫助 Hippocratic AI 保護所需的運算資源,並快速訓練模型。

  • NinjaTech

     

    NinjaTech AI 是一家生成式 AI 公司,提供可為您帶來無窮生產力的多合一 SuperAgent,並使用 Amazon SageMaker HyperPod 彈性訓練計劃來加速各種內部模型 (包括 Llama 3.1 405B 模型) 的微調作業,以降低模型訓練成本並將流程自動化。該公司旨在為希望存取各種 AI 代理人 (可支援其 SuperAgent 技術) 的使用者提供無縫體驗。為了實現這一目標,NinjaTech AI 需要一種可以自動預測使用者意圖,並能夠判斷適用之 AI 代理人的模型。這項機制需要透過反覆結合客戶意見反饋和新功能來對模型進行頻繁更新,這涉及在每輪 LoRA 微調中處理 1,000 萬到 1 億個字符。由於高昂的成本和頻寬問題,新創公司獲得並操作高效能運算資源十分困難,這些問題在涉及高速網路、快速儲存和加速運算作業的多節點叢集中尤其嚴重。此外,訓練過程還十分耗時,涉及模型下載、分散式訓練、檢查點、監控、自動修復、合併和量化等步驟。HyperPod 的靈活訓練方案可以在執行訓練前,為公司提供可靠且經濟實惠的運算作業,能夠符合其特定運算和時間表要求,同時確保高效的模型訓練。

  • OpenBabylon

    OpenBabylon 是一家致力於針對不常見語言自訂大型語言模型的 AI 公司,其開發人員和資料科學家在近幾個月使用了可簡化 GPU 資源存取作業的 SageMaker HyperPod 彈性訓練方案,以執行大規模實驗。透過多節點 SageMaker HyperPod 的分散式訓練功能,他們進行了 100 次大規模模型訓練實驗,在英語進烏克蘭語翻譯領域取得了最先進的結果。OpenBabylon 在既定的時間範圍以符合成本效益的方式實現了這項突破,證明了 SageMaker HyperPod 遵從時間和預算限制成功交付複雜專案的能力。

  • Salesforce

    Salesforce 的研究人員希望能找到一種方法,讓他們無須擔心基礎架構,即可快速進行基礎模型訓練和微調,並且不必花費數週來為每個新模型最佳化訓練堆疊。有了 Amazon SageMaker HyperPod 配方,Salesforce 的研究人員就可以在自訂 FM 時快速製作原型。現在,Salesforce 的 AI 研究團隊可以在幾分鐘內開始使用各種預先訓練和微調配方,並且可以將高效能的前沿模型投入實際運作。

Amazon SageMaker HyperPod 合作夥伴

 

透過擁有深厚技術知識和客戶成功案例的 AWS 合作夥伴,推動創新並發揮更高的商業價值

  • Accenture

    我們正在擴大與 AWS 的合作夥伴關係範圍,成為 Amazon SageMaker HyperPod 任務管控的啟動合作夥伴。我們與AWS的合作將助力我們引導客戶走向最新的技術突破,同時協助降低生成式 AI 應用程式的成本。通過整合 SageMaker HyperPod 中的集中管控功能以及我們在生成式 AI 專案方面的經驗,我們可以協助企業更快地實現生成式 AI 的價值,改善客戶體驗並提高投資報酬率。

    Accenture AWS Business Group 全球主管兼資深常務董事 Jennifer Jackson
  • Slalom

    我們很高興與 AWS 合作,成為 Amazon SageMaker HyperPod 任務管控的啟動合作夥伴。透過與 AWS 合作,我們現在可以協助客戶快速採用最新的技術進步並降低其生成式 AI 應用程式的成本。透過將 SageMaker HyperPod 中的集中式管控功能與 Slalom 豐富的 AI 和雲端經驗結合,我們可以提供卓越的客戶體驗並提高投資報酬率。

    Slalom 的 Amazon 卓越中心 (CoE) 常務董事 Jeff Kempiners
  • Rackspace Technology

    我們很高興與 AWS 合作,成為 SageMaker HyperPod 任務管控的啟動合作夥伴。我們可以共同協助客戶降低生成式 AI 應用程式的成本,同時緊跟最新的技術進步。透過將 SageMaker HyperPod 的集中式管控功能與 Rackspace 的深度 AI 和雲端專業知識結合,我們可以轉變客戶體驗,同時提高他們的投資報酬率。

    Rackspace Technology 的 AI、技術和永續發展總裁 Srini Koushik