如何疑難排解執行 Amazon SageMaker 訓練任務時的錯誤?

上次更新日期:2022 年 10 月 21 日

我想疑難排解執行 Amazon SageMaker 訓練任務時的錯誤。

解決方案

您的 SageMaker 訓練任務可能會因為多種原因而失敗。若要識別失敗的原因,請在 SageMaker 主控台上或透過 DescribeTrainingJob API 呼叫檢查失敗原因。根據訓練任務失敗時您收到的錯誤,使用以下疑難排解步驟。

內部伺服器錯誤

如果您的 SageMaker 訓練任務因為內部伺服器錯誤而失敗,請重試該任務,以確保任務不會因為暫時性問題而失敗。如果重試時任務失敗,請在 Amazon CloudWatch 上檢閱訓練任務的日誌。在 CloudWatch 中,您可以在日誌串流中的 /aws/sagemaker/TrainingJobs 日誌群組下找到這些日誌,看起來類似下列內容:

example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp

此外,請檢閱任務指標,例如 CPUUtilization、MemoryUtilization、DiskUtilization,以確保失敗不是因為資源緊縮而發生。

您可以執行以下操作來存取訓練任務日誌與任務指標:

  1. 開啟 SageMaker 主控台
  2. 選擇 Training jobs (訓練任務),然後選擇您欲檢視其指標的訓練任務。
  3. 選擇 TrainingJobName (訓練任務名稱)。
  4. Monitor (監控) 區段中,選擇 View logs (檢視日誌)。
  5. Monitor (監控) 區段中,檢閱執行個體使用率的圖表。

如果您發現任務耗盡了所有資源,請切換為較大的執行個體類型,或將較大的儲存磁碟區附加到執行個體。

如需詳細資訊,請參閱監控訓練任務指標 (SageMaker 主控台)