이제 Container Insights를 통해 EKS에서 SageMaker HyperPod 노드 상태 관찰 가능

게시된 날짜: 2024년 9월 10일

이제 Amazon CloudWatch Container Insights가 EKS에서 실행되는 SageMaker HyperPod 노드의 상태를 자동 검색한 후 큐레이트된 대시보드에 표시하므로 노드 사용 가능 여부를 모니터링하여 작업 효율성을 높일 수 있습니다. 기본 제공 대시보드를 사용하면 비정상 상태의 노드를 쉽게 파악한 후 해당 상태를 빠르게 완화하여 훈련 소요 시간을 효율적으로 단축할 수 있습니다.

Container Insights는 SageMaker와 연동되어 HyperPod 노드의 심층 상태 확인 테스트 결과를 수집한 후 사전 설정된 대시보드에 표시합니다. 그러므로 노드의 상태와 성능을 쉽게 파악하고 노드가 예약 가능한 상태인지를 식별할 수 있습니다. Container Insights는 장애 발생 노드를 “재부팅 보류 중” 및 “교체 보류 중” 노드로 분류하며 자동 노드 교체가 비활성화되어 있는 경우 노드 상태 유지 관리 과정을 안내하므로 훈련 소요 시간을 최적화할 수 있습니다. 자동 복구가 활성화되어 있으면 노드 변형과 훈련 작업 지연 상황을 확인하고 마지막 체크포인트에서 작업이 재개되는 방식을 파악할 수 있습니다.

Container Insights를 시작하는 방법은 간단합니다. 클러스터에 CloudWatch Observability EKS 추가 기능 또는 최신 CloudWatch 에이전트를 설치하거나, 최신 CloudWatch 에이전트 버전을 설치하여 헬름 차트를 업그레이드하는 방식으로 Container Insights 온보딩을 진행할 수 있습니다. 온보딩이 완료되면 Container Insights 콘솔로 이동하여 기본 제공되는 SageMaker HyperPod 노드 상태를 확인할 수 있습니다.

이제 SageMaker HyperPod가 제공되는 모든 상용 리전의 EKS용 Container Insights에서 SageMaker HyperPod 노드 상태 관찰 기능을 사용할 수 있습니다. HyperPod 노드 상태 지표에는 관찰 기반 요금제가 적용됩니다. 자세한 내용은 Container Insights 요금 페이지에서 확인하세요. 추가 정보는 Container Insights 사용 설명서를 참조하세요.