跳至主要內容

Amazon SageMaker HyperPod

Amazon SageMaker HyperPod

擴展和加速跨數千種 AI 加速器的生成式 AI 模型開發作業

什麼是 SageMaker HyperPod?

Amazon SageMaker HyperPod 免除了建置生成式 AI 模型所涉及的千篇一律的繁重工作。它有助於在數百或數千個 AI 加速器的叢集中快速擴展模型開發任務,例如訓練、微調或推論。SageMaker HyperPod 可讓您集中管控所有模型開發任務,全面瞭解和控制不同任務的優先排序與運算資源分配,幫助您將叢集的 GPU 和 AWS Trainium 使用率提升到最大,並加速創新。

專為大規模分散式訓練打造

使用 SageMaker HyperPod,您可以有效地在所有加速器之間分配工作負載並平行進行處理。針對熱門的公開可用模型,SageMaker HyperPod 會自動套用最佳訓練組態,協助您快速達到最佳效能。它還可持續監控您的叢集是否有任何基礎架構故障,自動修復問題,而且無需人工干預即可恢復工作負載,這些都有助於節省高達 40% 的訓練時間。

SageMaker HyperPod 的優勢

SageMaker HyperPod 透過自動偵測、診斷和復原基礎架構故障,為模型開發作業提供彈性的環境,讓您在不出現中斷的情況下,持續數個月執行模型開發工作負載。在 SageMaker HyperPod 上進行無檢查點訓練,減輕了以檢查點為基礎的任務層級重新啟動需求,且儘管出現失敗亦可進行持續訓練,從而節省了復原期間的閒置運算費用,以及將上市時間加快了數週。

藉助 SageMaker HyperPod 任務治理創新,您可跨模型開發任務 (包括訓練、微調、試驗與推論) 全面洞察及控制運算資源分配。SageMaker HyperPod 會自動管理工作佇列,確保優先處理最重要的工作,並在時間和預算範圍內完成,同時更有效地使用運算資源,降低高達 40% 的模型開發費用。另外,SageMaker HyperPod 可提供進階可觀測性,以及跨 AI 模型開發任務與運算資源的統一可視性。

藉助 SageMaker HyperPod 配方,各種技能組合的資料科學家和開發人員可從最先進的效能獲益,並能在幾分鐘內快速開始訓練和微調公開可用的基礎模型。此外,您還可以使用配方為您的業務特定使用案例自訂 Amazon Nova 模型 (包括 Nova Micro、Nova Lite 和 Nova Pro),以提高生成式 AI 應用程式的準確性,同時保持領先業界的價格效能比和低延遲表現。 Amazon Nova Forge 是一款史無前例的計劃,它為組織提供了使用 Nova 來建立自己的前沿模型的最簡單和最具成本效益的方法。

藉助 SageMaker HyperPod,您可在 AWS 叢集執行個體中自動分割模型和訓練資料集,以便高效地擴展訓練工作負載。其可協助您針對 AWS 網路基礎架構和叢集拓樸最佳化訓練任務。SageMaker HyperPod 還透過最佳化儲存檢查點的頻率,利用配方簡化模型檢查點儲存作業,從而確保將訓練期間的開銷降至最低。

SageMaker HyperPod 可協助加速 SageMaker JumpStart 的開放式權重模型部署,以及 Amazon Simple Storage Service (Amazon S3) 和 Amazon FSx 的經微調的模型。您可以利用以下方式簡化模型部署任務:自動佈建、透過任務治理的運算資源管理、即時效能監控以及增強的可觀測性。

在 Amazon SageMaker HyperPod 中推出無檢查點訓練

幾分鐘內即可從基礎結構故障中自動復原,甚至在數千個 AI 加速器中亦如此。