Amazon SageMaker HyperPod, 이제 Slurm 오케스트레이션된 클러스터에 지속적 프로비저닝 지원
Amazon SageMaker HyperPod의 지속적인 프로비저닝 지원을 Slurm 오케스트레이터 사용 클러스터로 확장합니다. 이제 대규모 AI/ML 훈련 워크로드를 실행하는 기업 고객에게 더 큰 유연성과 효율성을 보장합니다. Slurm 기반 클러스터를 실행 중인 AI/ML 고객은 훈련을 신속하게 시작하고, 원활하게 확장하며, 운영 중단 없이 유지 관리를 수행하고, 클러스터 운영을 세부적으로 파악할 수 있어야 합니다. 이전에는 인스턴스 그룹을 완전히 프로비저닝할 수 없는 경우 전체 클러스터 생성 또는 조정 작업이 실패하고 롤백되어 지연이 발생하고 수동 개입이 필요했습니다.
SageMaker HyperPod는 Slurm에 대한 지속적 프로비저닝을 통해 남은 용량을 백그라운드에서 자동으로 프로비저닝하고, 훈련 작업이 가용 인스턴스에서 즉시 시작될 수 있도록 합니다. 시스템은 우선 순위 기반 프로비저닝을 사용하여 Slurm 컨트롤러 노드를 먼저 실행한 다음 로그인과 워커 노드를 병렬로 실행하므로 클러스터가 최대한 빨리 작동 상태에 도달합니다. HyperPod는 실패한 노드 시작을 비동기로 재시도하고 노드를 사용할 수 있게 되면 자동으로 Slurm 클러스터에 노드를 추가합니다. 따라서 클러스터는 수동 개입 없이 원하는 규모에 안정적으로 도달할 수 있습니다. 이제 여러 인스턴스 그룹에서 동시에 비차단 조정 작업을 수행할 수 있습니다. 즉, 더 이상 한 인스턴스 그룹의 용량 부족으로 인해 다른 인스턴스 그룹의 규모 조정이 차단되지 않습니다. 이러한 기능을 통해 고객은 훈련 시간을 단축하고 리소스 활용도를 극대화하며 인프라 관리보다 혁신에 집중할 수 있습니다.
이 기능은 Slurm 오케스트레이터를 사용하는 새로운 SageMaker HyperPod 클러스터에 제공됩니다. CreateCluster API를 사용하여 새로운 HyperPod 클러스터를 생성할 때 NodeProvisioningMode 파라미터를 ‘Continuous’로 설정하면 지속적 프로비저닝을 활성화할 수 있습니다. AWS CLI와 SageMaker AI 콘솔을 통해 새 클러스터를 생성할 때도 지속적 프로비저닝을 활성화할 수 있습니다.
이 기능은 Amazon SageMaker HyperPod가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. Slurm 클러스터에 지원되는 지속적 프로비저닝에 대해 자세히 알아보려면 Amazon SageMaker HyperPod 사용 설명서를 참조하세요.