現已全面推出 Amazon SageMaker HyperPod 的任務控管
Amazon SageMaker HyperPod 現為您提供所有生成式 AI 開發任務 (例如訓練和推論) 的集中式控管。您掌握對運算資源配置的完全可見性和控制權,確保最關鍵任務會優先處理,並將運算資源使用率最大化,從而最多將模型開發成本降低 40%。
透過 HyperPod 任務控管,管理員就可以更輕鬆地定義不同任務的優先順序,並為每個團隊可以使用的運算資源數量設定限制。管理員也可以在任何特定時間透過視覺化儀表板,監控和稽核正在執行或等待運算資源的任務。當資料科學家建立任務時,HyperPod 會自動執行這些任務,並遵守定義的運算資源限制和優先順序。例如,當需要盡快完成高優先順序模型的訓練,但所有運算資源都在使用中時,HyperPod 會釋放優先順序較低之任務中的資源,以協助訓練。HyperPod 會暫停低優先順序的任務、儲存檢查點,並重新分配釋放的運算資源。當資源再次可用時,優先佔用的低優先順序任務將從上次儲存的檢查點恢復。當團隊未完全使用管理員設定的資源限制時,HyperPod 會使用那些閒置資源來加速另一個團隊的任務。此外,HyperPod 現已與 Amazon SageMaker Studio 整合,可將任務控管和其他 HyperPod 功能帶入 Studio 環境中。資料科學家現在可以直接從 Studio 與 HyperPod 叢集順暢互動,讓他們能夠在強大的加速器支援的叢集開發、提交和監控機器學習 (ML) 工作。
提供 HyperPod 的所有 AWS 區域均可使用 HyperPod 的任務控管:美國東部 (維吉尼亞北部)、美國西部 (加利佛尼亞北部)、美國西部 (奧勒岡)、亞太地區 (孟買)、亞太地區 (新加坡)、亞太地區 (雪梨) 和亞太地區 (東京)、歐洲 (法蘭克福)、歐洲 (愛爾蘭)、歐洲 (倫敦)、歐洲 (斯德哥爾摩) 和南美洲 (聖保羅)。
若要進一步了解,請瀏覽 SageMaker HyperPod 網頁、AWS 新聞部落格和 SageMaker AI 文件。