Amazon SageMaker HyperPod, 제한된 인스턴스 그룹(RIG)에 대한 포괄적인 관찰성 기능 제공
Amazon SageMaker HyperPod는 이제 제한된 인스턴스 그룹(RIG)에 대한 포괄적인 관찰성을 제공합니다. 따라서 팀은 Nova Forge로 파운데이션 모델을 훈련하여 컴퓨팅 리소스 및 훈련 워크로드에 대한 심층적인 가시성을 확보할 수 있습니다. 새롭게 도입된 이 기능을 사용하면 인프라 스택 전체에서 지표를 수집하고 상관 관계를 파악하는 수고를 덜 수 있습니다. Amazon Managed Service for Prometheus를 기반으로 사전 구성된 Amazon Managed Grafana 대시보드를 통해 GPU 성능, 시스템 상태, 네트워크 처리량 및 Kubernetes 클러스터 상태를 통합적으로 파악할 수 있습니다.
이제 단일 Grafana 대시보드에서 GPU 사용률, NVLink 대역폭, CPU 부하, FSx for Lustre 사용량, 포드 수명 주기를 모니터링할 수 있으며, 이는 GPU 성능, 호스트 수준 시스템 상태, 네트워크 패브릭, Kubernetes 객체 상태를 포괄하는 4개의 내보내기 도구에서 수집된 지표를 기반으로 합니다. 더불어 에포크 진행 상황, 단계별 훈련 로그, 파이프라인 오류, Python 트레이스백 등 선별된 로그가 이러한 대시보드에 자동으로 제공되어, 훈련 실패 원인을 신속하게 진단할 수 있습니다. 제한된 인스턴스 그룹(RIG)를 위한 HyperPod 관찰성 기능은 RIG를 사용해 새 클러스터를 생성할 때 자동으로 활성화되며, 기존 클러스터의 경우 HyperPod 클러스터 관리 콘솔에서 클릭 몇 번으로 활성화할 수 있습니다.
Amazon SageMaker HyperPod RIG 관찰성 기능은 SageMaker HyperPod RIG가 지원되는 모든 AWS 리전에서 사용할 수 있습니다. 자세한 내용은 설명서를 참조하세요.