Amazon SageMaker HyperPod, 이제 사용자 지정 Kubernetes 레이블과 테인트 지원

게시된 날짜: 2025년 11월 26일

Amazon SageMaker HyperPod가 이제 사용자 지정 Kubernetes 레이블 및 테인트를 지원합니다. 따라서 고객은 포드 예약을 제어하고 기존 Kubernetes 인프라와 원활하게 통합할 수 있습니다. EKS로 오케스트레이션된 HyperPod 클러스터에 AI 워크로드를 배포하는 고객은 시스템 포드 및 비 AI 워크로드가 고가의 GPU 리소스를 소비하지 않도록 워크로드 배치를 정밀하게 제어해야 하고, 동시에 EFA 및 NVIDIA GPU 오퍼레이터 같은 사용자 지정 디바이스 플러그인과의 호환성을 보장해야 합니다. 이전에는 고객이 kubectl을 사용하여 레이블과 테인트를 수동으로 적용하고, 노드 교체, 확장 또는 패치 작업이 끝나면 항상 이를 재적용해야 했기에 상당한 운영 오버헤드가 발생했습니다.

이 기능을 사용하면 CreateCluster 및 UpdateCluster API를 통해 인스턴스 그룹 수준에서 레이블과 테인트를 구성하여, 전체 노드 수명 주기에서 예약 정책을 정의하고 유지 관리하는 관리형 접근 방식을 이용할 수 있습니다. 새로운 KubernetesConfig 파라미터를 사용하면 인스턴스 그룹당 최대 50개의 레이블과 50개의 테인트를 지정할 수 있습니다. 레이블을 사용하면 노드 셀렉터를 통해 리소스를 구성하고 포드를 타겟팅할 수 있으며, 테인트를 사용하면 허용 오차를 일치시키지 않고 포드를 차단하여 특수 노드를 보호합니다. 예를 들어 GPU 인스턴스 그룹에 NoSchedule 테인트를 적용하여 명시적인 허용 규칙을 가진 AI 훈련 작업만 고비용 컴퓨팅 리소스를 소비하게 하거나, 디바이스 플러그인 포드가 올바르게 예약될 수 있게 하는 사용자 지정 레이블을 추가할 수 있습니다. HyperPod는 노드 생성 중에 이러한 구성을 자동으로 적용하고 교체, 확장 및 패치 작업 전반에서 구성을 유지하여, 수동으로 개입할 필요가 없게 하고 운영 오버헤드를 줄입니다.

이 기능은 Amazon SageMaker HyperPod가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. 사용자 지정 라벨과 테인트에 대해 자세히 알아보려면 사용 설명서를 참조하세요.