Elastic Fabric Adapter를 위한 Kubernetes 동적 리소스 할당 기능 발표
Amazon Elastic Kubernetes Service(Amazon EKS)가 이제 Elastic Fabric Adapter(EFA)를 위한 동적 리소스 할당(DRA)을 지원합니다. 따라서 인공 지능, 기계 학습 및 고성능 컴퓨팅(HPC) 워크로드를 위한 고성능 노드 간 통신 및 RDMA(원격 직접 메모리 액세스)를 더 간편하게 구현할 수 있습니다. 업스트림 DRANET 프로젝트를 기반으로 구축된 EFA DRA 드라이버는 Kubernetes에서 실행되는 워크로드를 위해 EFA 인터페이스 공유 및 토폴로지 인식 할당 기능을 제공합니다.
EFA DRA 드라이버를 사용하면 동일한 PCIe 루트 또는 디바이스 그룹을 공유하는 EFA 인터페이스와 액셀러레이터 디바이스를 할당할 수 있습니다. 이를 통해 노드의 각 NVIDIA GPU, AWS Trainium 또는 AWS Inferentia 디바이스에 가장 가까운 네트워크 인터페이스를 통해 노드 간 트래픽이 흐르도록 보장할 수 있습니다. 아울러 EFA DRA 드라이버는 동일한 노드 내의 워크로드 간에 EFA 인터페이스 공유를 지원하여 EFA 인터페이스 활용도를 극대화합니다.
EFA DRA 드라이버는 Kubernetes 버전 1.34 이상을 실행하는 Amazon EKS 클러스터에서, EKS 관리형 노드 그룹 또는 자체 관리형 노드를 사용하는 신규 배포에 권장됩니다. EFA DRA 드라이버는 Amazon EKS가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. EFA 디바이스 플러그인은 계속 지원되며, Karpenter 및 Amazon EKS 자동 모드와 함께 사용하는 것이 권장됩니다.
자세한 내용은 Amazon EKS 사용 설명서의 Amazon EKS에서 EFA 디바이스 관리를 참조하세요.