SageMaker HyperPod, 분산 훈련 워크로드를 위한 갱 스케줄링 지원
Amazon SageMaker HyperPod 태스크 거버넌스가 갱 스케줄링을 지원합니다. 따라서 분산 훈련 작업에 필요한 모든 포드가 준비된 후에 훈련이 시작되도록 보장할 수 있습니다. 관리자는 갱 스케줄링을 구성하여 부분 작업 실행으로 인한 컴퓨팅 리소스 낭비를 방지하고 리소스를 기다리는 작업으로 인해 발생하는 교착 상태를 피할 수 있습니다.
데이터 과학자가 EKS 오케스트레이터를 사용하는 Amazon SageMaker HyperPod 클러스터에서 분산 AI/ML 훈련 작업을 실행하려면 여러 노드에 걸쳐 배치된 포드들 간의 통신이 가능하도록 여러 포드가 함께 작동해야 합니다. 일부 포드는 시작되지만 다른 포드는 시작되지 않으면, 작업이 진행되지 않고 리소스를 점유하거나 다른 워크로드를 차단하고, 비용을 증가시킬 수 있습니다. 갱 스케줄링은 워크로드의 모든 포드를 모니터링하고 설정된 시간 내에 모든 포드가 준비되지 않은 경우 워크로드를 다시 회수하여 이 문제를 해결합니다. 회수된 워크로드는 자동으로 다시 대기열에 등록되어 작업 정체를 방지합니다. 관리자는 HyperPod 콘솔에서 포드 준비 대기 시간, 노드 장애 처리 방식, 사용량이 많은 클러스터의 교착 상태를 방지하기 위한 워크로드 순차 허용 여부, 재시도 스케줄링 등의 설정을 조정할 수 있습니다.
이 기능은 현재 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오리건), 아시아 태평양(뭄바이), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(도쿄), 아시아 태평양(자카르타), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(스톡홀름), 유럽(스페인), 남아메리카(상파울루) AWS 리전에서 EKS 오케스트레이터를 사용 중인 Amazon SageMaker HyperPod 클러스터에 제공됩니다.
자세한 내용은 SageMaker HyperPod 웹 페이지 및 HyperPod 태스크 거버넌스 설명서에서 확인하세요.