Amazon SageMaker HyperPod 推出增強的生命週期指令碼偵錯功能
Amazon SageMaker HyperPod 現在為生命週期指令碼提供增強的疑難排解功能,使您得以在叢集節點佈建期間更輕鬆識別和解決問題。SageMaker HyperPod 可協助您佈建具備彈性的叢集,用於執行 AI/ML 工作負載並開發最先進的模型,例如大型語言模型 (LLM)、擴散模型與基礎模型 (FM)。
當生命週期指令碼在叢集建立或節點作業期間遇到問題時,您現在會收到詳細的錯誤訊息,其中包括特定 CloudWatch 日誌群組和日誌串流名稱,您可以在其中找到生命週期指令碼的執行日誌。您能夠執行 DescribeCluster API 或在 SageMaker 主控台中檢視叢集詳細資料頁面,進而檢視這些錯誤訊息。主控台還提供了「檢視生命週期指令碼日誌」按鈕,該按鈕可直接將您導覽至相關 CloudWatch 日誌串流,使您更輕鬆地找到日誌。此外,生命週期指令碼的 CloudWatch 日誌現在包含特定標記,能夠協助您追蹤生命週期指令碼執行進度,包括指示生命週期指令碼日誌開始時間、下載指令碼時間、下載完成時間以及指令碼成功或失敗時間的指標。這些標記能夠協助您快速識別佈建流程期間發生問題的位置。這些增強功能可減少診斷和修復生命週期指令碼失敗所需的時間,從而協助您更快地啟動並執行 HyperPod 叢集。
此功能適用於支援 Amazon SageMaker HyperPod 的所有 AWS 區域。若要進一步了解,請參閱 Amazon SageMaker 開發人員指南中的 SageMaker HyperPod 叢集管理。