Amazon SageMaker 훈련 작업을 실행할 때 발생하는 오류를 해결하려면 어떻게 해야 하나요?

최종 업데이트 날짜: 2022년 10월 21일

Amazon SageMaker 훈련 작업을 실행할 때 발생하는 오류를 해결하고 싶습니다.

해결 방법

SageMaker 훈련 작업은 여러 가지 이유로 실패할 수 있습니다. 실패 원인을 식별하려면 SageMaker 콘솔 또는 DescribeTrainingJob API 호출을 통해 실패 원인을 확인하세요. 훈련 작업이 실패할 때 발생하는 오류에 따라 다음 문제 해결 단계를 사용합니다.

내부 서버 오류

SageMaker 훈련 작업이 내부 서버 오류로 인해 실패한 경우 작업을 다시 시도하여 일시적인 문제로 인해 작업이 실패하지 않았는지 확인합니다. 재시도할 때 작업이 실패하면 Amazon CloudWatch에서 훈련 작업에 대한 로그를 검토합니다. CloudWatch의 로그 그룹 /aws/sagemaker/TrainingJobs에 있는 다음과 비슷한 로그 스트림에서 이러한 로그를 찾을 수 있습니다.

example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp

또한 CPUUtilization, MemoryUtilization, DiskUtilization 등의 작업 지표를 검토하여 리소스 부족으로 인한 오류가 아닌지 확인합니다.

다음을 수행하여 훈련 작업 로그 및 작업 지표에 액세스할 수 있습니다.

  1. SageMaker 콘솔을 엽니다.
  2. Training Jobs(훈련 작업)를 선택한 다음, 지표를 확인하려는 훈련 작업을 선택합니다.
  3. TrainingJobName을 선택합니다.
  4. Monitor(모니터링) 섹션에서 View logs(로그 보기)를 선택합니다.
  5. Monitor(모니터링) 섹션에서 인스턴스 사용률 그래프를 검토합니다.

작업이 모든 리소스를 소모하는 경우 더 큰 인스턴스 유형으로 전환하거나 인스턴스에 더 큰 스토리지 볼륨을 연결하세요.

자세한 내용은 훈련 작업 지표 모니터링(SageMaker 콘솔)을 참조하세요.