Amazon SageMaker 노트북 인스턴스가 보류 중 상태에서 실패합니다.

최종 업데이트 날짜: 2020년 9월 24일

Amazon SageMaker 노트북 인스턴스를 생성하거나 시작하면 인스턴스가 보류 중 상태로 들어갑니다. 노트북 인스턴스가 이 상태에서 멈춘 것처럼 보이고 실패합니다.

간략한 설명

보류 중 상태는 SageMaker가 노트북 인스턴스를 생성하고 있음을 의미합니다. 생성 프로세스 단계 중 하나라도 실패하면 SageMaker는 노트북을 다시 생성하려고 시도합니다. 이러한 이유로 노트북이 예상보다 오래 보류 중 상태로 머무를 수 있습니다. 여전히 SageMaker에서 노트북 인스턴스를 생성할 수 없는 경우 상태가 결국 실패로 변경됩니다.

해결 방법

실패 원인 확인

DescribeNotebookInstance API에서 FailureReason 응답을 확인합니다. SageMaker 콘솔에서도 실패 원인을 찾을 수 있습니다.

  • 실패 원인의 단축 버전을 표시하는 팝업을 보려면 [상태] 열에서 [실패]를 일시 중지합니다.
  • 전체 실패 원인을 보려면 노트북 인스턴스의 이름을 선택합니다. 실패 원인은 노트북 인스턴스 설정 섹션의 맨 위에 나타납니다.

실패 원인 사용하여 근본 원인을 해결합니다.

일반 오류

"fatal: unable to access 'https://github.com/aws-samples/amazon-sagemaker-notebook-instance-lifecycle-config-samples/': Failed to connect to github.com port 443: Connection timed out"

이 오류는 노트북 인스턴스의 네트워킹 구성이 외부 Git 리포지토리의 도메인 이름이나 연결을 지원하지 않을 때 발생합니다.

중요: Virtual Private Cloud(VPC)에 배포된 노트북 인스턴스는 VPC 피어링 연결을 위한 서브넷과 같은 사용자 지정 라우팅 테이블을 자동으로 상속하지 않습니다. 사용자 정의 라우팅 테이블이 필요한 경우 시작 시 경로를 추가하는 수명 주기 구성 스크립트를 생성합니다. 자세한 내용은 Amazon SageMaker 노트북 인스턴스 네트워킹 구성 및 고급 라우팅 옵션 이해하기를 참조하세요.

Git 연결이 유효하고 노트북 인스턴스에서 리포지토리에 연결할 수 있는지 확인하려면 연결된 Git 저장소 없이 새 노트북 인스턴스를 생성합니다. 그런 다음 Jupyter 콘솔을 열고 터미널 세션을 사용하여 다음 명령을 실행합니다.

1.    서버의 호스트 이름을 확인합니다.

dig repo_hostname

출력의 응답 섹션이 비어 있으면 노트북에서 호스트 이름을 확인할 수 없습니다.

2.    출력의 응답 섹션에 응답이 포함되어 있으면 도메인 이름 확인이 작동합니다. 이어서 다음 명령을 실행하여 호스트 이름에 대한 연결을 테스트할 수 있습니다.

nc repo_hostname 443

3.    연결이 거부되거나 시간 초과된 경우 VPC 보안 그룹 규칙라우팅 테이블을 확인합니다. 연결에 성공하면 git 명령을 사용하여 자격 증명을 테스트합니다.

git pull https://your-git-repo-url

"Lifecycle Configuration failed"

수명 주기 구성 스크립트가 5분 넘게 실행될 경우 스크립트는 실패하고 노트북 인스턴스가 생성 또는 시작되지 않습니다. 스크립트 실행 시간을 줄이는 방법에 대한 제안 사항은 수명 주기 구성 스크립트를 사용하여 노트북 인스턴스 사용자 지정을 참조하세요. 스크립트 문제를 해결하려면 Amazon CloudWatch logs에서 수명 주기 구성을 확인합니다.

  • 로그 그룹: /aws/sagemaker/NotebookInstances
  • 로그 스트림: notebook-instance-name/LifecycleConfigOnStart 또는 notebook-instance-name/LifecycleConfigOnCreate

"This Notebook Instance type 'ml.m4.xlarge' is temporarily unavailable. We apologize for the inconvenience. Please try again in a few minutes, or try a different instance type."

이 오류는 선택한 인스턴스 유형에 대해 Amazon Elastic Compute Cloud(Amazon EC2)에 사용 가능한 용량이 충분하지 않을 때 발생합니다. 용량은 해당 리전에서 해당 인스턴스 유형에 대한 그 시점의 수요에 따라 달라집니다. 나중에 요청을 다시 시도하여 용량 수준이 변경되었는지 확인합니다. 또는 다른 인스턴스 유형을 선택합니다.

HTTP 500 내부 오류

HTTP 500 오류는 노트북 인스턴스 생성 중 예기치 않은 오류가 발생했음을 나타냅니다. 일시적인 문제를 배제하려면 노트북 인스턴스를 다시 생성해 보십시오.


이 문서가 도움이 되었습니까?


결제 또는 기술 지원이 필요합니까?