Amazon SageMaker HyperPod, 이제 자동 Slurm 토폴로지 관리 지원
이제 Amazon SageMaker HyperPod는 클러스터의 GPU 인스턴스 유형을 기반으로 Slurm 클러스터에 대한 최적의 네트워크 토폴로지 구성을 자동으로 선택하고 지속적으로 유지 관리합니다. 네트워크 토폴로지는 분산 훈련 성능에 직접적인 영향을 미칩니다. 이 경우 토폴로지 상에서 가까운 노드에 작업을 배치하면 GPU 간 통신이 더 빨라지고, NCCL 집단 연산의 효율성이 높아지며, 훈련 처리량이 향상됩니다. HyperPod는 규모 조정 작업 및 노드 교체를 통해 클러스터가 변화할 경우 토폴로지를 동적으로 조정하므로, 토폴로지 파일을 수동으로 업데이트하거나 Slurm을 재구성하지 않고도 클러스터 수명 주기 전체에서 작업 배치가 최적화된 상태로 유지됩니다.
HyperPod는 클러스터 생성 시 모든 인스턴스 그룹의 인스턴스 유형을 검사하고, 각 인스턴스 유형의 네트워킹 및 상호 연결 특성을 식별하며, 가장 적합한 토폴로지 모델을 자동으로 선택합니다. HyperPod는 계층적 인터커넥트가 있는 인스턴스 유형(예: ml.p5.48xlarge, ml.p5e.48xlarge, ml.p5en.48xlarge)을 위한 트리 토폴로지와 균일한 고대역폭 연결을 사용하는 인스턴스 유형(예: ml.p6e-gb200.NVL72)을 위한 블록 토폴로지를 지원합니다. 인스턴스 유형이 혼합된 클러스터의 경우, HyperPod는 모든 노드에서 작동하는 호환 가능한 토폴로지를 선택합니다. 스케일 업, 스케일 다운 또는 노드 교체 이벤트를 통해 클러스터가 변경되면 HyperPod는 수동 개입 없이 토폴로지 구성을 자동으로 업데이트하므로, 토폴로지는 항상 클러스터의 실제 상태를 반영합니다.
시작하려면 지원되는 GPU 인스턴스 유형을 사용하여 SageMaker HyperPod Slurm 클러스터를 생성하세요. 토폴로지 인식 스케줄링은 기본적으로 활성화되어 있으며 구성이 필요하지 않습니다.
이 기능은 Amazon SageMaker HyperPod가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. 토폴로지 인식 스케줄링에 대해 자세히 알아보려면 Amazon SageMaker HyperPod 설명서를 참조하세요.