Amazon SageMaker HyperPod, 향상된 수명 주기 스크립트 디버깅 도입

게시된 날짜: 2026년 1월 21일

이제 Amazon SageMaker HyperPod가 수명 주기 스크립트에 필요한 향상된 문제 해결 기능을 제공하므로 클러스터 노드 프로비저닝 중 발생하는 문제를 쉽게 파악하고 해결할 수 있습니다. SageMaker HyperPod를 사용하면 AI/ML 워크로드를 실행하고 대규모 언어 모델(LLM), 확산 모델, 파운데이션 모델(FM)과 같은 최첨단 모델을 개발하기 위한 복원력 있는 클러스터를 프로비저닝할 수 있습니다.

클러스터를 생성하거나 노드를 실행하는 동안 수명 주기 스크립트에 문제가 발생하면 이제 수명 주기 스크립트의 실행 로그를 찾을 수 있는 특정 CloudWatch 로그 그룹과 로그 스트림 이름이 포함된 자세한 오류 메시지를 받게 됩니다. DescribeCluster API를 실행하거나 SageMaker 콘솔에서 클러스터 세부 정보 페이지를 보면 이 오류 메시지를 확인할 수 있습니다. 이 콘솔에는 관련 CloudWatch 로그 스트림으로 직접 이동하는 ‘수명 주기 스크립트 로그 보기’ 버튼도 제공되므로 로그를 더 쉽게 찾을 수 있습니다. 또한 수명 주기 스크립트의 CloudWatch 로그에는 이제 수명 주기 스크립트 로그 시작 시점, 스크립트 다운로드 시점, 다운로드 완료 시점, 스크립트 성공 또는 실패 시점 지표를 포함하여 수명 주기 스크립트 실행 진행 상황을 추적하는 데 도움이 되는 특정 마커가 포함됩니다. 이러한 마커를 사용하면 프로비저닝 프로세스 중 어디에 문제가 발생했는지 빠르게 식별할 수 있습니다. 이 향상 기능은 수명 주기 스크립트 오류를 진단하고 해결하는 데 필요한 시간을 줄여 HyperPod 클러스터를 더 빠르게 시작하고 실행하는 데 도움을 줍니다.

이 기능은 Amazon SageMaker HyperPod가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. 자세히 알아보려면 Amazon SageMaker 개발자 안내서의 SageMaker HyperPod 클러스터 관리를 참조하세요.