Amazon SageMaker HyperPod
擴展和加速跨數千種 AI 加速器的生成式 AI 模型開發作業
什麼是 SageMaker HyperPod?
Amazon SageMaker HyperPod 免除了建置生成式 AI 模型所涉及的千篇一律的繁重工作。它有助於在數百或數千個 AI 加速器的叢集中快速擴展模型開發任務,例如訓練、微調或推論。SageMaker HyperPod 可讓您集中管控所有模型開發任務,全面瞭解和控制不同任務的優先排序與運算資源分配,幫助您將叢集的 GPU 和 AWS Trainium 使用率提升到最大,並加速創新。
專為大規模分散式訓練打造
使用 SageMaker HyperPod,您可以有效地在所有加速器之間分配工作負載並平行進行處理。針對熱門的公開可用模型,SageMaker HyperPod 會自動套用最佳訓練組態,協助您快速達到最佳效能。它還可持續監控您的叢集是否有任何基礎架構故障,自動修復問題,而且無需人工干預即可恢復工作負載,這些都有助於節省高達 40% 的訓練時間。
SageMaker HyperPod 的優勢
透過集中治理所有模型開發任務來降低成本
SageMaker HyperPod 任務治理創新可讓您全面瞭解並控制跨生成式 AI 模型開發任務 (例如訓練和推論) 的運算資源分配。SageMaker HyperPod 會自動管理工作佇列,確保優先處理最重要的工作,並在時間和預算範圍內完成,同時更有效地使用運算資源,降低高達 40% 的模型開發成本。
使用配方和工具實現最先進的效能
有了 SageMaker HyperPod 配方,各種技能水準的資料科學家和開發人員皆可受益於最先進的效能,同時在幾分鐘內開始訓練和微調公開可用的生成式 AI 模型。此外,您還可以使用配方為您的業務特定使用案例自訂 Amazon Nova 基礎模型 (FM) (包括 Nova Micro、Nova Lite 和 Nova Pro),以提高生成式 AI 應用程式的準確性,同時保持 Nova 領先業界的價格效能比和低延遲表現。SageMaker HyperPod 還提供內建的實驗和可觀測性工具,幫助您提高模型效能。
在數千種 AI 加速器中高效地擴展並平行化模型訓練
利用彈性的開發環境消除中斷情形
加速開放式權重模型部署
SageMaker HyperPod 可協助加速 SageMaker JumpStart 的開放式權重模型部署,以及 Amazon S3 和 Amazon FSx 的經微調的模型。您可以利用以下方式簡化模型部署任務:自動佈建、透過任務治理的運算資源管理、即時效能監控以及增強的可觀測性。