Amazon SageMaker HyperPod, 이제 프로그래밍 방식 노드 재부팅 및 교체 지원
오늘 Amazon SageMaker HyperPod에서는 SageMaker HyperPod 클러스터 노드를 프로그래밍 방식으로 재부팅하고 교체할 수 있게 하는 새로운 API를 정식으로 출시했습니다. SageMaker HyperPod를 사용하면 기계 학습(ML) 워크로드를 실행하고 대규모 언어 모델(LLM), 확산 모델, 파운데이션 모델(FM)과 같은 최첨단 모델을 개발하기 위한 복원력 있는 클러스터를 프로비저닝할 수 있습니다. 새로운 BatchRebootClusterNodes 및 BatchReplaceClusterNodes API를 사용하면 고객은 응답하지 않거나 성능이 저하된 클러스터 노드를 프로그래밍 방식으로 재부팅하거나 교체하여, 오케스트레이터에 구애받지 않는 일관된 방식으로 노드 복구 작업을 수행할 수 있습니다.
새로운 API는 Slurm 및 EKS 오케스트레이션된 클러스터 모두에 대한 노드 관리 기능을 개선하여 기존 노드 재부팅 및 교체 워크플로를 보완합니다. EKS 클러스터의 Kubernetes 레이블과 Slurm 클러스터의 Slurm 명령 같은, 기존의 오케스트레이터별 방법은 이러한 특수 제작 API를 통한 재부팅 및 교체 작업을 위해 새로 도입된 프로그래밍 방식 기능과 함께 계속 사용할 수 있습니다. 메모리 오버런이나 하드웨어 성능 저하 같은 문제 때문에 클러스터 노드가 응답하지 않을 때는 노드 재부팅 및 교체 같은 복구 작업이 필요합니다. 새 API를 이용하면 이러한 작업을 시작할 수 있습니다. 이러한 기능은 시간에 민감한 워크로드를 실행할 때 특히 유용합니다. 예를 들어 Slurm 컨트롤러, 로그인 또는 컴퓨팅 노드가 응답하지 않는 경우, 관리자는 API를 사용하여 재부팅 작업을 트리거하고 진행 상황을 모니터링하여 노드를 작동 상태로 복구할 수 있습니다. 마찬가지로 EKS 클러스터 관리자는 성능이 저하된 워커 노드를 프로그래밍 방식으로 교체할 수 있습니다. 각 API는 최대 25개 인스턴스의 일괄 작업을 지원하므로, 대규모 복구 시나리오를 효율적으로 관리할 수 있습니다.
재부팅 및 교체 API는 현재 SageMaker HyperPod를 사용할 수 있는 세 개의 AWS 리전, 즉 미국 동부(오하이오), 아시아 태평양(뭄바이)과 아시아 태평양(도쿄)에서 지원되며 AWS CLI, SDK 또는 API 직접 호출을 통해 액세스할 수 있습니다. 자세한 내용은 BatchRebootClusterNodes 및 BatchReplaceClusterNodes에 대한 Amazon SageMaker HyperPod 설명서를 참조하세요.