現已全面推出 Amazon SageMaker HyperPod 的任務控管

張貼日期: 2024年12月4日

Amazon SageMaker HyperPod 現為您提供所有生成式 AI 開發任務 (例如訓練和推論) 的集中式控管。您掌握對運算資源配置的完全可見性和控制權，確保最關鍵任務會優先處理，並將運算資源使用率最大化，從而最多將模型開發成本降低 40%。

透過 HyperPod 任務控管，管理員就可以更輕鬆地定義不同任務的優先順序，並為每個團隊可以使用的運算資源數量設定限制。管理員也可以在任何特定時間透過視覺化儀表板，監控和稽核正在執行或等待運算資源的任務。當資料科學家建立任務時，HyperPod 會自動執行這些任務，並遵守定義的運算資源限制和優先順序。例如，當需要盡快完成高優先順序模型的訓練，但所有運算資源都在使用中時，HyperPod 會釋放優先順序較低之任務中的資源，以協助訓練。HyperPod 會暫停低優先順序的任務、儲存檢查點，並重新分配釋放的運算資源。當資源再次可用時，優先佔用的低優先順序任務將從上次儲存的檢查點恢復。當團隊未完全使用管理員設定的資源限制時，HyperPod 會使用那些閒置資源來加速另一個團隊的任務。此外，HyperPod 現已與 Amazon SageMaker Studio 整合，可將任務控管和其他 HyperPod 功能帶入 Studio 環境中。資料科學家現在可以直接從 Studio 與 HyperPod 叢集順暢互動，讓他們能夠在強大的加速器支援的叢集開發、提交和監控機器學習 (ML) 工作。

提供 HyperPod 的所有 AWS 區域均可使用 HyperPod 的任務控管：美國東部 (維吉尼亞北部)、美國西部 (加利佛尼亞北部)、美國西部 (奧勒岡)、亞太地區 (孟買)、亞太地區 (新加坡)、亞太地區 (雪梨) 和亞太地區 (東京)、歐洲 (法蘭克福)、歐洲 (愛爾蘭)、歐洲 (倫敦)、歐洲 (斯德哥爾摩) 和南美洲 (聖保羅)。

若要進一步了解，請瀏覽 SageMaker HyperPod 網頁、AWS 新聞部落格和 SageMaker AI 文件。

選取您的 Cookie 偏好設定

現已全面推出 Amazon SageMaker HyperPod 的任務控管

結束對 Internet Explorer 的支援