Amazon SageMaker HyperPod 功能
擴展和加速跨數千種 AI 加速器的生成式 AI 模型開發作業
任務管控
Amazon SageMaker HyperPod 提供完整可視性並控制跨生成式 AI 模型開發任務 (例如訓練和推論) 的運算資源分配。SageMaker HyperPod 會自動管理工作佇列,確保優先處理最重要的工作,同時更有效地使用運算資源來降低模型開發成本。 只需幾個簡短的步驟,管理員就可以定義不同任務的優先順序,並為每個團隊或專案可以使用的運算資源數量設定限制。 然後,資料科學家和開發人員會建立 SageMaker HyperPod 自動執行的任務 (例如訓練執行、微調特定模型或在訓練模型上進行預測),並遵守管理員設定的運算資源限制和優先順序。當高優先順序任務需要立即完成,但所有運算資源都在使用中時,SageMaker HyperPod 會自動從低優先順序的任務釋放運算資源。 此外,SageMaker HyperPod 會自動使用閒置運算資源,以加速待執行的任務。管理員也可以透過 SageMaker HyperPod 提供的儀表板,來監控和稽核正在執行或等待運算資源的任務。
靈活的訓練方案
為符合您的訓練時間表和預算,SageMaker HyperPod 幫助您建立最具成本效益的訓練計劃,這些計劃使用來自多個運算容量區塊的運算資源。在您核准訓練計劃後,SageMaker HyperPod 會在這些運算資源上自動佈建基礎架構並執行訓練工作,而不需要任何人工干預。您無需手動調整工作與運算資源可用性,可省下數週的管理訓練時間。
最佳化配方
SageMaker HyperPod 配方可幫助各種技能組合的資料科學家和開發人員從最先進的效能獲益,同時快速開始訓練和微調公開可用的生成式 AI 模型,包括 Llama 3.1 405B、Mixtral 8x22B 和 Mistral 7B。每個配方都包含 AWS 測試的訓練堆疊,省去為期數週測試不同模型組態的繁瑣工作。您也可以透過一行配方變更,切換以 GPU 為基礎的執行個體和以 AWS Trainium 為基礎的執行個體,並啟用自動化模型檢查點,以改善訓練恢復能力,並在 SageMaker HyperPod 上執行生產環境中的工作負載。
高效能分散式訓練
SageMaker HyperPod 透過在 AWS 加速器之間自動分割模型和訓練資料集,加速分散式訓練。它可協助您針對 AWS 網路基礎架構和叢集拓樸最佳化訓練工作,並透過最佳化儲存檢查點的頻率來簡化模型檢查點,確保訓練期間將開銷降至最低。
先進的實驗和可觀測性工具
您可以在 SageMaker HyperPod 中使用內建 AI 工具,以提升模型效能。例如,SageMaker 中的受管 TensorBoard 可協助您透過視覺化模型架構來識別和修正融合問題,進而節省開發時間。與 Amazon CloudWatch Container Insights 整合可提供有關叢集效能、運作狀態和使用率的深入洞察。 SageMaker 中的受管 MLflow 可協助您有效率地管理大規模實驗。
工作負載排程和協同運作
SageMaker HyperPod 使用者介面可使用 Slurm 或 Amazon Elastic Kubernetes Service (Amazon EKS) 進行高度自訂。您可以選擇並安裝任何需要的框架或工具。所有叢集都會以您選擇的執行個體類型和數量佈建,並在工作負載間保留供您使用。藉助 SageMaker HyperPod 中的 Amazon EKS 支援,您可以使用以 Kubernetes 為基礎的一致管理員體驗來管理和操作叢集。從訓練到微調,再到推論,有效地執行和擴展工作負載。您還可以共用運算容量,並在 Slurm 和 Amazon EKS 之間切換不同類型的工作負載。
自動叢集運作狀態檢查和修復
如果任何執行個體在模型開發工作負載期間出現故障,SageMaker HyperPod 會自動偵測並解決基礎架構問題。為了偵測硬體故障,SageMaker HyperPod 定期執行一系列加速器和網路完整性的運作狀態檢查。