如何疑難排解執行 Amazon SageMaker 訓練任務時的錯誤?

1 分的閱讀內容
0

我想疑難排解執行 Amazon SageMaker 訓練任務時的錯誤。

解決方案

您的 SageMaker 訓練任務可能會因為多種原因而失敗。若要識別失敗的原因,請在 SageMaker 主控台上或透過 DescribeTrainingJob API 呼叫檢查失敗原因。根據訓練任務失敗時您收到的錯誤,使用以下疑難排解步驟。

內部伺服器錯誤

如果您的 SageMaker 訓練任務因為內部伺服器錯誤而失敗,請重試該任務,以確保任務不會因為暫時性問題而失敗。如果重試時任務失敗,請在 Amazon CloudWatch 上檢閱訓練任務的日誌。在 CloudWatch 中,您可以在日誌串流中的 /aws/sagemaker/TrainingJobs 日誌群組下找到這些日誌,看起來類似下列內容:

example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp

此外,請檢閱任務指標,例如 CPUUtilization、MemoryUtilization、DiskUtilization,以確保失敗不是因為資源緊縮而發生。

您可以執行以下操作來存取訓練任務日誌與任務指標:

  1. 開啟 SageMaker 主控台
  2. 選擇 Training jobs (訓練任務),然後選擇您欲檢視其指標的訓練任務。
  3. 選擇 TrainingJobName (訓練任務名稱)。
  4. Monitor (監控) 區段中,選擇 View logs (檢視日誌)。
  5. Monitor (監控) 區段中,檢閱執行個體使用率的圖表。

如果您發現任務耗盡了所有資源,請切換為較大的執行個體類型,或將較大的儲存磁碟區附加到執行個體。

如需詳細資訊,請參閱監控訓練任務指標 (SageMaker 主控台)


相關資訊

使用 Amazon CloudWatch 指標監控與分析訓練任務

內建演算法的日誌

AWS 官方
AWS 官方已更新 1 年前