跳至主要內容

Amazon SageMaker HyperPod

Amazon SageMaker HyperPod 客戶

各種規模的頂尖 AI 新創公司和組織正在 SageMaker HyperPod 上大規模訓練和部署基礎模型

WRITER

WRITER 藉助 AWS 基礎結構,讓其訓練 LLM 的方法改頭換面。他們利用 SageMaker HyperPod,為進行順暢的多節點分散式訓練提供支援。該服務讓 WRITER 的研究團隊能專注於模型開發,同時改善跨產業基準的效能。

Salesforce

Salesforce 的 AI 研究團隊實現了快速、大規模的訓練基礎結構部署,從而將隔離式節點轉化為 SageMaker HyperPod 上的高效能 GPU 經緯。藉由消除 DevOps 開銷,以及提供即用的進階訓練堆疊配方,HyperPod 可顯著加速模型訓練週期,從而協助 Salesforce 為客戶加速創新。在 Amazon SageMaker HyperPod 中進行無檢查點訓練,將會革新我們的 LLM 訓練基礎結構。憑藉這項技術,幾分鐘內即可啟用故障復原,而不會中斷訓練進度,也無須恢復到檢查點,從而讓 Salesforce 的 AI 研究團隊能夠加速工作負載與藍圖。彈性訓練將支援工作負載自動擴展,以便在 GPU 變得可用時吸收閒置 GPU,以及順暢地產生各種資源,完成這一切皆不會中斷開發週期。最重要的是,這還會節省數小時花費在手動重新設定任務上的時間,以便與可用的運算能力相符,以及省下重新投資於創新的時間。

Luma AI

訓練前沿視覺 AI 模型,需要大量運算能力與順暢運作的基礎結構。Luma AI 在比最大型 LLM 多 1,000 倍的資料基礎上訓練,要求採用進階、可擴展的解決方案。SageMaker HyperPod 能交付所需的可靠性、效能與效率,使 GPU、聯網與儲體能夠完美一致地運作。藉助 HyperPod,AI 開發人員能夠加速訓練複雜的模型,最佳化資源,以及充滿信心地將尖端 AI 帶到市場。

Amazon Nova

Amazon AGI 團隊藉助最佳化基礎結構、高速儲存體,以及整合式監控與可觀測性工具,能夠在 SageMaker HyperPod 上訓練 Amazon Nova 基礎模型。SageMaker HyperPod 支援跨大型分散式叢集,實現具備恢復能力、高效且可擴展的模型開發。

Hugging Face

Hugging Face 使用 SageMaker HyperPod 來建立新的開放式基礎模型,例如 StarCoder、IDEFICS 和 Zephyr。SageMaker HyperPod 專用恢復能力和效能功能,讓其開放科學團隊能夠專注於創新和發佈基礎模型建置方式的重要改進,而非管理基礎架構。

Perplexity AI

Perplexity 可建置及微調為其對話式回答引擎提供支援的 LLM,其中該引擎可以回答問題並以引用形式提供參考。藉助 SageMaker HyperPod,他們執行模型訓練的速度提高了 40%,且執行實驗的速度亦加快了兩倍。

Articul8 AI

藉助 HyperPod,Articul8 的生產力提高了 35%,並且能向上擴展 GenAI 營運。有了 SageMaker HyperPod 的自動化任務排序和資源分配功能,他們藉由顯著改善 GPU 使用率來減少閒置時間,並透過最佳化從訓練、微調到推理的各項任務,加快了模型開發流程。藉助 SageMaker HyperPod 可觀測性,他們可一鍵式部署指標集合與視覺化系統,從而為團隊節省數天的手動設定時間,並增強叢集可觀測性工作流程與洞察。

Coastal Carbon

Coastal Carbon 正藉助人工智慧和雲端徹底推動環境保護變革。藉助 SageMaker HyperPod,他們可處理數千 PB 的歷史衛星資料,進而建立自然世界的數位分身和基礎模型。

EvolutionaryScale

EvolutionaryScale 是一間開創性的 AI 新創公司,讓科學家能夠了解、想像和產生蛋白質。藉助 SageMaker HyperPod,他們訓練了超過 20 億個蛋白質序列,突破了蛋白質工程和藥物開發的極限。

Noetik

Noetik 是一間 AI 原生生物科技公司,可利用 SageMaker HyperPod 來探索和開發癌症療法。

Latent Labs

Latent Labs 轉向 SageMaker HyperPod,以便跨數百個叢集或數千個 AI 加速器,快速擴展訓練、微調或推論等模型開發任務 (使用模型依據新資料做出預測)。透過 AI 模型,能夠更精確且更輕鬆地生成及測試新生物序列 (例如 DNA),將會加速其在真實世界的製造與部署。

TwelveLabs

TwelveLabs 正在革新企業運用 AI 驅動型影片智慧以及與之互動的方式。他們利用 SageMaker HyperPod,更高效地訓練及擴展其模型。藉助具備恢復能力及分散的訓練基礎結構,他們能夠盡快啟動 GPU 及訓練模型。

Arcee AI

Arcee AI 可開發適合網域的小型語言模型 (SLM),進而助力企業執行分析法律文件等專業化任務。他們藉助 SageMaker HyperPod,能夠跨 GPU 高效地分散訓練工作負載,從而將模型訓練時間縮短了 40%。

Intercom

在 Intercom,我們不斷訓練新模型以改善 Fin,我們對於能將無檢查點訓練整合到管道中感到振奮。這將完全消除手動恢復檢查點的需求。結合彈性訓練,這將讓我們能夠更快地改善 Fin,並且降低基礎設施成本。

Missing alt text value

Bayer

藉助 SageMaker HyperPod,Bayer 在短短幾個月,即可訓練並使用新的基礎模型。現在,其科學團隊能夠處理大量生物醫學成像資料,訓練複雜的機器學習 (ML) 模型,以及依據表型特徵來辨識有前景的備選藥物。隨著 Bayer 不斷創新,他們與 AWS 協作有助於為更快捷、更高效的製藥研發鋪平道路。 

Bayer logo with a blue and green circular design and the word 'BAYER' arranged vertically and horizontally in the center.

Sony Honda Mobility

Sony Honda Mobility 在其 MLOps 管道使用 SageMaker HyperPod 進行模型訓練,以便增強 AFEELA 智慧驅動。「HyperPod 的即用可觀測性功能跨多個維度 (叢集、節點、任務等) 提供綜合性指標集,我們期待藉助任務層級彙總,來獲得更深入、預先設定的運作狀態與效能洞察。」

Sony Honda Mobility 網路服務開發部門 MLOps 工程師 Motoi Kataoka

Missing alt text value

Thomson Reuters

Thomson Reuters 30 多年來在 AI 開發方面始終位居要角,我們致力於提供實質性的解決方案,協助客戶更妥善地存取值得信賴的資訊,以期能更快實現目標。為了加速我們在生成式 AI 方面的創新,除了與 LLM 供應商合作以外,我們也利用自身獨特的專有內容和人類專業知識,更有效地探索自訂模型的訓練。SageMaker HyperPod 的分散式訓練程式庫可協助我們提高大規模模型訓練的效能。此外,其恢復能力讓我們的基礎架構監控和管理更為省時。在 SageMaker HyperPod 上訓練我們的基礎模型可以加快上市時程,並協助我們適時為客戶提供優質的解決方案。

Thomson Reuters Labs 的 AI 和實驗室主管 Joel Hron、傑出工程師 Thomson Reuters 和 John Duprey

Missing alt text value

Stability AI

作為領先的開放原始碼生成式 AI 公司,我們的目標是將現代 AI 的可存取性最大化。我們著手建置具有數百億個參數的基礎模型,而這些模型需要能夠擴展最佳化訓練效能的基礎架構。透過 SageMaker HyperPod 的受管基礎架構和最佳化程式庫,我們可以將訓練時間和成本降低 50% 以上。據此,我們的模型訓練更具彈性和效能,而能夠更快速地建置最先進的模型。

Emad Mostaque,Stability AI 的 Founder and CEO

Missing alt text value

Recursal AI

整個過程都簡化了。使用 SageMaker HyperPod,我們可以利用叢集彈性功能,在發生硬體故障時識別問題並自動從上次儲存的檢查點復原訓練任務。我們以 Kubernetes 作為一般執行緒執行非常多樣化的工作負載,包括應用、推理和訓練。對我們來說,Amazon EKS 搭配 SageMaker HyperPod 就可以運作:節點只需放入我們的叢集即可。

Recursal 基礎結構/資料主管 Nathan Wilce

Missing alt text value

Hippocratic AI

Hippocratic AI 是一家 AI 公司,開發醫療保健業界首個以安全為重點的大型語言模型 (LLM)。為了訓練其主要的 LLM 和監督模型,Hippocratic AI 需要需求量極高且難以獲得的強大運算資源。Amazon SageMaker HyperPod 彈性訓練方案使其能夠更輕鬆地存取 Amazon Elastic Compute Cloud (Amazon EC2) P5 執行個體。HippocraticAI 還利用 Grafana 等 AWS 服務來追蹤重要的 GPU 使用率指標。透過 Amazon EC2 P5 執行個體,Hippocratic AI 將模型訓練速度提高至四倍,並擴展其解決方案以滿足數百個使用案例。Amazon EC2 P5 執行個體幫助 Hippocratic AI 保護所需的運算資源,並快速訓練模型。

Missing alt text value

NinjaTech

NinjaTech AI 是一家生成式 AI 公司,提供可為您帶來無窮生產力的多合一 SuperAgent,並使用 Amazon SageMaker HyperPod 彈性訓練計劃來加速各種內部模型 (包括 Llama 3.1 405B 模型) 的微調作業,以降低模型訓練成本並將流程自動化。該公司旨在為希望存取各種 AI 代理程式 (可支援其 SuperAgent 技術) 的使用者提供無縫體驗。為了實現這一目標,NinjaTech AI 需要一種可以自動預測使用者意圖,並能夠判斷適用之 AI 代理程式的模型。這項機制需要透過反覆結合客戶意見反饋和新功能來對模型進行頻繁更新,這涉及在每輪 LoRA 微調中處理 1,000 萬到 1 億個字符。由於高昂的成本和頻寬問題,新創公司獲得並操作高效能運算資源十分困難,這些問題在涉及高速網路、快速儲存和加速運算作業的多節點叢集中尤其嚴重。此外,訓練過程還十分耗時,涉及模型下載、分散式訓練、檢查點、監控、自動修復、合併和量化等步驟。HyperPod 的靈活訓練方案可以在執行訓練前,為公司提供可靠且經濟實惠的運算作業,能夠符合其特定運算和時間表要求,同時確保高效的模型訓練。

Missing alt text value

OpenBabylon

OpenBabylon 是一家致力於針對不常見語言自訂大型語言模型的 AI 公司,其開發人員和資料科學家在近幾個月使用了可簡化 GPU 資源存取作業的 SageMaker HyperPod 彈性訓練方案,以執行大規模實驗。透過多節點 SageMaker HyperPod 的分散式訓練功能,他們進行了 100 次大規模模型訓練實驗,在英語進烏克蘭語翻譯領域取得了最先進的結果。OpenBabylon 在既定的時間範圍以符合成本效益的方式實現了這項突破,證明了 SageMaker HyperPod 遵從時間和預算限制成功交付複雜專案的能力。

Missing alt text value

H.AI

「藉助 Amazon SageMaker HyperPod,我們即可使用相同的高效能運算,來建置及部署代理式 AI 平台背後的基礎模型。這種從訓練到推論的無縫轉換可簡化我們的工作流程,縮短生產時間,並確保即時環境中的一致效能。HyperPod 可協助我們更快更有效地實現從實驗到實際影響。」

H.AI 聯合創始人兼技術長 Laurent Sifre

Missing alt text value

Datology AI

「我們很高興能夠使用 Amazon SageMaker HyperPod 的一鍵式可觀測性解決方案。我們的資深人員需要洞察了解我們會如何運用昂貴的 GPU 資源。預先建置的 Grafana 儀表板將為我們提供所需的一切功能,並即時洞察關鍵指標 (從任務特定 GPU 使用率到檔案系統 (FSx for Lustre) 效能),而無需我們維護任何監控基礎架構。我非常讚賞 Prometheus 查詢語言功能,因此我也喜歡這一事實:我可以編寫自己的查詢並分析自訂指標,而不必擔心基礎架構問題。」

Datology AI 技術人員 Josh Wills

Missing alt text value

Splash Music

「藉助 SageMaker HyperPod 與 Trainium,我們研究人員的試驗速度就像建立社群一樣快。我們不僅能緊跟音樂趨勢,更將引領潮流。」

Splash Music 技術長 Randeep Bhatia

Missing alt text value

Amazon SageMaker HyperPod 合作夥伴

透過擁有深厚技術知識和客戶成功案例的 AWS 合作夥伴,推動創新並發揮更高的商業價值

Accenture

「我們正在擴大與 AWS 的合作夥伴關係範圍,成為 Amazon SageMaker HyperPod 任務治理的啟動合作夥伴。我們與 AWS 的合作將助力我們引導客戶走向最新的技術突破,同時協助降低生成式 AI 應用程式的成本。通過整合 SageMaker HyperPod 中的集中管控功能以及我們在生成式 AI 專案方面的經驗,我們可以協助企業更快地實現生成式 AI 的價值,改善客戶體驗並提高投資報酬率。」

Accenture AWS Business Group 全球主管兼資深常務董事 Jennifer Jackson

Missing alt text value

Slalom

「我們很高興與 AWS 合作,成為 Amazon SageMaker HyperPod 任務治理的啟動合作夥伴。透過與 AWS 合作,我們現在可以協助客戶快速採用最新的技術進步並降低其生成式 AI 應用程式的成本。透過將 SageMaker HyperPod 中的集中式管控功能與 Slalom 豐富的 AI 和雲端經驗結合,我們可以提供卓越的客戶體驗並提高投資報酬率。」

Slalom 的 Amazon 卓越中心 (CoE) 常務董事 Jeff Kempiners

Missing alt text value

Rackspace Technology

「我們很高興與 AWS 合作,成為 SageMaker HyperPod 任務治理的啟動合作夥伴。我們可以共同協助客戶降低生成式 AI 應用程式的成本,同時緊跟最新的技術進步。透過將 SageMaker HyperPod 的集中式管控功能與 Rackspace 的深度 AI 和雲端專業知識結合,我們可以轉變客戶體驗,同時提高他們的投資報酬率。」

Rackspace Technology 的 AI、技術和永續發展總裁 Srini Koushik

Missing alt text value

找到今天所需的資訊了嗎?

讓我們知道,以便我們改善頁面內容的品質