Amazon SageMaker HyperPod, API 기반 Slurm 구성 지원

게시된 날짜: 2026년 2월 26일

이제 Amazon SageMaker HyperPod가 API 기반 Slurm 구성을 지원합니다. 따라서 클러스터 생성 및 업데이트 API에서 또는 AWS Console을 통해 직접 Slurm 토폴로지와 공유 파일 시스템 구성을 정의할 수 있습니다. SageMaker HyperPod를 사용하면 기계 학습(ML) 워크로드를 실행하고 대규모 언어 모델(LLM), 확산 모델, 파운데이션 모델(FM)과 같은 최첨단 모델을 개발하기 위한 복원력 있는 클러스터를 프로비저닝할 수 있습니다.

이번에 도입된 API 기반 구성 덕분에, 클러스터 인스턴스 그룹에 대한 Slurm 노드 유형(Controller, Login, Compute), 인스턴스 그룹과 파티션 간의 매핑, 인스턴스 그룹별 FSx for Lustre 및 FSx for OpenZFS 파일 시스템 마운트를 클러스터 API 정의에서 또는 AWS Console의 고급 구성 섹션을 통해 직접 지정할 수 있습니다. 클러스터 리소스 할당을 미세 조정하기 위해 Slurm의 기본 구성 파일에서 직접 파티션-노드 매핑을 수정할 경우, Slurm의 파티션-노드 구성과 HyperPod의 인식 간에 드리프트가 발생할 수 있습니다. 이를 관리하기 위해 새롭게 도입된 클러스터 수준의 SlurmConfigStrategy는 관리형, 덮어쓰기, 병합이라는 세 가지 옵션을 제공합니다. 관리형 전략을 사용하면 API 또는 콘솔을 통해 인스턴스 그룹과 파티션 간의 매핑을 완전히 관리할 수 있으며 스케일 업 또는 스케일 다운 작업 중에 파티션-노드 매핑의 드리프트를 자동으로 탐지할 수 있습니다. 드리프트가 탐지되면 덮어쓰기 전략으로 전환하여 API 정의 매핑을 강제로 적용하거나, 병합 전략으로 전환하여 수동 사용자 지정을 보존하거나, HyperPod에 맞게 Slurm 구성을 직접 업데이트하여 문제를 해결할 때까지 클러스터 업데이트가 일시 중지됩니다.

API 기반 Slurm 구성은 SageMaker HyperPod가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. 시작하려면 AWS Management Console, AWS CLI, AWS CloudFormation 또는 AWS SDK를 사용하면 됩니다. 자세한 내용은 콘솔 또는 CLI를 사용하여 클러스터를 생성하는 방법에 대한 Amazon SageMaker HyperPod 설명서와 CreateClusterUpdateCluster에 대한 API 참조에서 확인하세요.