Amazon SageMaker 模型訓練

訓練並微調機器學習和生成式 AI 模型

什麼是 Amazon SageMaker 模型訓練?

Amazon SageMaker 模型追蹤可大規模減少訓練和調整機器學習 (ML) 模型的時間和成本,而無需管理基礎設施。您可以利用目前可用的最高效能 ML 運算基礎設施,Amazon SageMaker AI 可以自動擴展基礎設施,從一個到數千個 GPU。為了更快訓練深度學習模型,SageMaker AI 可協助您即時選取和精煉資料集。SageMaker 分散式訓練程式庫可以在 AWS GPU 執行個體之間自動分割大型模型和訓練資料集,或者您可以使用第三方程式庫,例如 DeepSpeed、Horovod 或 Megatron。自動監控和修復訓練叢集,連續 數週和數月無中斷地訓練基礎模型 (FM)。

成本效益培訓的優勢

SageMaker AI 提供多種 GPU 和 CPU 選項及 AWS 加速器 (例如 AWS Trainium 和 AWS Inferentia),以支援大規模的模型訓練。您可以自動擴展或縮減基礎架構規模 (從一個到數千個 GPU)。
SageMaker AI 可讓您在 AWS 叢集執行個體中自動分割模型和訓練資料集,以協助您高效地擴展訓練工作負載。其可協助您針對 AWS 網路基礎架構和叢集拓樸最佳化訓練工作。您還可以使用最佳化的配方,從最先進的效能中受益,並在幾分鐘內快速開始訓練和微調公開可用的生成式 AI 模型。SageMaker AI 還透過最佳化儲存檢查點的頻率,利用配方簡化模型檢查點儲存作業,從而確保將訓練期間的開銷降至最低。
SageMaker AI 可以透過調整數千種不同的演算法參數組合,自動調校您的模型,進而達到最準確的預測。使用偵錯和分析工具快速更正效能問題並最佳化訓練效能。
SageMaker AI 可實現高效的 ML 實驗,協助您更輕鬆地追蹤 ML 模型迭代。藉由將模型架構視覺化來識別和修復融合問題,以改善模型訓練效能。

大規模訓練模型

全受管訓練任務

SageMaker 訓練任務可為大型分散式 FM 訓練提供全受管使用者體驗,從而消除基礎設施管理方面的無差異繁重工作。SageMaker 訓練任務會自動啟動具恢復能力的分散式訓練叢集,監控基礎設施,並自動復原故障,以確保順暢的訓練體驗。訓練完成後,SageMaker 會關閉叢集,並依淨訓練時間計費。此外,透過 SageMaker 訓練任務,您可以靈活地選擇適合個別工作負載的適當執行個體類型 (例如,在 P5 叢集上預先訓練大型語言模型 (LLM),或在 p4d 執行個體上微調開放原始碼 LLM),以進一步最佳化您的訓練預算。此外,SagerMaker 訓練工作還為具有不同程度技術專業知識和不同工作負載類型的機器學習團隊提供一致的使用者體驗。

進一步了解

SageMaker HyperPod

Amazon SageMaker HyperPod 是專門建置的基礎設施,可有效地管理運算叢集,以擴展基礎模型 (FM) 開發作業。它可實現進階模型訓練技術、基礎設施控制、效能最佳化,以及增強的模型可觀測性。SageMaker HyperPod 已使用 SageMaker 分散式訓練程式庫進行預先設定,讓您可在 AWS 叢集執行個體中自動分割模型和訓練資料集,以協助有效利用叢集的運算和網路基礎設施。它透過自動偵測、診斷和復原硬體故障,支援更具恢復能力的環境,讓您可連續數月不中斷地訓練 FM,從而減少高達 40% 的訓練時間。

進一步了解

高效能分散式訓練

SageMaker AI 透過在 AWS 加速器之間自動分割模型和訓練資料集,讓您更快地執行分散式訓練。 其可協助您針對 AWS 網路基礎架構和叢集拓樸最佳化訓練工作。SageMaker AI 還透過最佳化儲存檢查點的頻率,利用配方簡化模型檢查點儲存作業,從而確保將訓練期間的開銷降至最低。各種技能組合的資料科學家和開發人員可以透過配方受益於最先進的效能,同時快速開始訓練和微調公開可用的生成式 AI 模型,包括 Llama 3.1 405B、Mixtral 8x22B 和 Mistral 7B。配方包含由 AWS 測試的訓練堆疊,能夠省去在數週內持續測試不同模型組態的繁瑣工作。您可以透過變更配方的一行內容,在 GPU 型執行個體和 AWS Trainium 型執行個體之間切換,並啟用自動化模型檢查點,以改善訓練彈性。此外,您可以在生產環境中使用您選擇的 SageMaker 訓練功能來執行工作負載。

進一步了解