Amazon EKS, 클러스터당 최대 10만 개의 워커 노드 지원

게시된 날짜: 2025년 7월 15일

오늘 Amazon EKS는 클러스터당 최대 10만 개의 워커 노드를 지원한다고 발표했습니다. 이를 통해 단일 클러스터에서 초대형 AI/ML 훈련 및 추론 워크로드를 실행할 수 있습니다. Amazon EC2의 차세대 가속 컴퓨팅 인스턴스 유형을 사용하면 10만 개의 워커 노드가 단일 클러스터에서 Trn2 인스턴스를 사용하는 경우 최대 160만 개의 Trainium 칩을 지원하고, P5 및 P6 인스턴스를 사용하는 경우 80만 개의 NVIDIA GPU를 지원합니다. 따라서 모든 컴퓨팅 액셀러레이터를 단일 클러스터 내에서 사용할 수 있어야 하는 초대형 AI/ML 워크로드를 실행할 수 있습니다. 이러한 워크로드는 여러 클러스터에 쉽게 분산될 수 없기 때문입니다.

수조 개의 파라미터가 포함된 최첨단 AI 모델은 컨텍스트 이해, 추론, 복잡한 작업 해결 측면에서 현저히 향상된 기능을 보여줍니다. 점점 강력해지는 이러한 모델을 구축하고 운영하려면 단일 클러스터에서 엄청난 수의 컴퓨팅 액셀러레이터를 활용할 수 있어야 합니다. 이러한 대규모 컴퓨팅 액셀러레이터 풀에 통합적으로 액세스할 수 있는 기능은 중요한 이점을 제공합니다. 조직은 그 어느 때보다 강력한 AI 모델을 구축 및 배포할 수 있고, 훈련과 추론 워크로드 간에 컴퓨팅 액셀러레이터를 효율적으로 공유하여 비용을 절감할 수 있으며, 여러 클러스터에서 작동하도록 설계되지 않은 기존 AI/ML 도구 및 프레임워크를 원활하게 사용할 수 있습니다.

자세한 내용은 출시 블로그를 참조하세요.