Amazon SageMaker HyperPod, 제한된 인스턴스 그룹(RIG)에 대한 포괄적인 관찰성 기능 제공

게시된 날짜: 2026년 3월 4일

Amazon SageMaker HyperPod는 이제 제한된 인스턴스 그룹(RIG)에 대한 포괄적인 관찰성을 제공합니다. 따라서 팀은 Nova Forge로 파운데이션 모델을 훈련하여 컴퓨팅 리소스 및 훈련 워크로드에 대한 심층적인 가시성을 확보할 수 있습니다. 새롭게 도입된 이 기능을 사용하면 인프라 스택 전체에서 지표를 수집하고 상관 관계를 파악하는 수고를 덜 수 있습니다. Amazon Managed Service for Prometheus를 기반으로 사전 구성된 Amazon Managed Grafana 대시보드를 통해 GPU 성능, 시스템 상태, 네트워크 처리량 및 Kubernetes 클러스터 상태를 통합적으로 파악할 수 있습니다.

이제 단일 Grafana 대시보드에서 GPU 사용률, NVLink 대역폭, CPU 부하, FSx for Lustre 사용량, 포드 수명 주기를 모니터링할 수 있으며, 이는 GPU 성능, 호스트 수준 시스템 상태, 네트워크 패브릭, Kubernetes 객체 상태를 포괄하는 4개의 내보내기 도구에서 수집된 지표를 기반으로 합니다. 더불어 에포크 진행 상황, 단계별 훈련 로그, 파이프라인 오류, Python 트레이스백 등 선별된 로그가 이러한 대시보드에 자동으로 제공되어, 훈련 실패 원인을 신속하게 진단할 수 있습니다. 제한된 인스턴스 그룹(RIG)를 위한 HyperPod 관찰성 기능은 RIG를 사용해 새 클러스터를 생성할 때 자동으로 활성화되며, 기존 클러스터의 경우 HyperPod 클러스터 관리 콘솔에서 클릭 몇 번으로 활성화할 수 있습니다.

Amazon SageMaker HyperPod RIG 관찰성 기능은 SageMaker HyperPod RIG가 지원되는 모든 AWS 리전에서 사용할 수 있습니다. 자세한 내용은 설명서를 참조하세요.