Amazon SageMaker HyperPod, Slurm 클러스터용 상태 모니터링 에이전트 지원 발표
오늘 Amazon SageMaker HyperPod는 Slurm 클러스터용 상태 모니터링 에이전트의 정식 출시를 발표했습니다. SageMaker HyperPod를 사용하면 기계 학습(ML) 워크로드를 실행하고 대규모 언어 모델(LLM), 확산 모델, 파운데이션 모델(FM)과 같은 최첨단 모델을 개발하기 위한 복원력 있는 클러스터를 프로비저닝할 수 있습니다. 상태 모니터링 에이전트는 인스턴스에 대한 수동적인 백그라운드 상태 확인을 수행하여 애플리케이션 동작이나 성능에 영향을 미치지 않으면서 주요 영역의 문제를 식별하고, 장애를 즉시 표시하며, 비정상 인스턴스를 교체하여 훈련 작업이 원활하게 실행되도록 합니다.
에이전트는 HyperPod 클러스터의 모든 GPU 또는 Trainium 기반 노드에서 지속적으로 실행되며, 응답하지 않는 GPU나 NVLink 오류 카운터와 같은 하드웨어 문제를 감시합니다. 장애가 감지되면 해당 노드를 비정상으로 표시하고 자동으로 재부팅하거나 정상적인 노드로 교체하여 수동 개입 없이 작업이 계속 실행되도록 합니다. 에이전트는 Slurm 클러스터에서 제공되는 작업 자동 재개 기능과 함께 장애를 처리하기 위한 조율된 접근 방식을 따릅니다. 예를 들어, 자동 재개 기능이 활성화된 작업은 에이전트가 노드를 교체한 후 마지막으로 저장된 체크포인트부터 계속 실행됩니다. 이러한 자동 복구 기능은 이미 Amazon EKS로 오케스트레이션된 HyperPod 클러스터에서 제공되고 있으며, 이제 Slurm 클러스터에서도 동일한 복원력을 갖춘 환경을 제공하여 팀이 몇 주간 대규모 모델을 중단 없이 학습할 수 있도록 돕고, 중간 장애로 인해 손실될 수 있는 시간과 비용을 절감할 수 있게 합니다. 또한, GPU 드라이버 문제로 인해 재설정이 필요한 경우처럼 간헐적인 문제 발생 시 간단한 명령을 사용하여 노드를 재부팅할 수 있습니다.
Slurm용 상태 모니터링 에이전트는 HyperPod가 정식 출시된 모든 리전에서 사용할 수 있습니다. 이 에이전트는 새로 생성된 모든 Slurm 클러스터에서 자동으로 활성화됩니다. 기존 클러스터에서 활성화하려면 UpdateClusterSoftware API를 호출하여 최신 HyperPod AMI로 업그레이드하기만 하면 됩니다. 자세한 내용은 Amazon SageMaker HyperPod 설명서를 참조하세요.