AWS Neuron, Amazon EKS를 통한 동적 리소스 할당 지원 발표

게시된 날짜: 2026년 3월 20일

AWS가 Amazon Elastic Kubernetes Service(EKS)용 Neuron 동적 리소스 할당(DRA) 드라이버를 발표했습니다. AWS Trainium 기반 인스턴스에 Kubernetes 네이티브 하드웨어 인식 예약 기능을 제공합니다. Neuron DRA 드라이버는 풍부한 디바이스 속성을 Kubernetes 스케줄러에 직접 게시하므로 사용자 지정 스케줄러 확장 없이 토폴로지를 고려한 배치 결정을 내릴 수 있습니다.

Kubernetes에 AI 워크로드를 배포하려는 기계 학습 엔지니어는 모델 개발과 직접적으로 관련되지 않은 인프라 결정을 내려야 합니다. 예를 들어 디바이스 수를 정하고, 하드웨어와 네트워크 토폴로지를 이해하고, 가속기별 매니페스트를 작성해야 합니다. 이로 인해 마찰이 발생하고, 반복 속도가 느려지고, 워크로드가 기본 인프라에 긴밀하게 연결됩니다. 분산된 훈련, 긴 컨텍스트 추론, 분리된 아키텍처로 사용 사례가 확장될수록 이러한 복잡성은 스케일링 병목 현상으로 이어집니다.

Neuron DRA 드라이버는 인프라 문제를 ML 워크플로에서 분리하여 이러한 부담을 제거합니다. 인프라 팀은 디바이스 토폴로지, 할당, 네트워킹 정책을 캡처하는 재사용 가능한 ResourceClaimTemplates를 정의합니다. ML 엔지니어는 하드웨어 세부 정보를 추론할 필요 없이 매니페스트에서 이러한 템플릿을 단순히 참조할 수 있습니다. 따라서 워크로드 유형 전반에 걸친 일관된 배포와 워크로드별 구성이 가능하므로 여러 워크로드가 동일한 노드를 효율적으로 공유할 수 있습니다.

Neuron DRA 드라이버는 모든 AWS Trainium 인스턴스 유형을 지원하며 AWS Trainium이 제공되는 모든 AWS 리전에서 사용할 수 있습니다.

문서, 샘플 템플릿, 구현 가이드는 Neuron DRA 설명서를 참조하세요.

자세히 알아보기: