게시된 날짜: Mar 26, 2021
이제 Amazon Elastic Kubernetes Service(EKS)에서 Elastic Fabric Adapter(EFA)를 지원함에 따라 애플리케이션에서 온프레미스 기계 학습 훈련 클러스터의 성능과 EKS 관리형 Kubernetes 클러스터의 확장성, 유연성 및 탄력성을 달성할 수 있게 되었습니다.
Kubernetes는 강력한 GPU 기반 인스턴스가 포함된 많은 수의 노드로 클러스터를 손쉽게 확장할 수 있기 때문에 분산 기계 학습 애플리케이션의 선도적인 플랫폼이 되었습니다. 규모가 커지면 분산 워크로드에서 네트워크 대역폭으로 인한 병목 현상이 발생할 수 있습니다. Elastic Fabric Adapter(EFA)는 Amazon EC2 인스턴스의 네트워크 인터페이스입니다. 이 인터페이스를 사용하면 AWS에서 대규모로 높은 수준의 노드 간 통신이 필요한 애플리케이션을 실행할 수 있습니다. 이제 자동으로 EFA 디바이스를 검색한 후 디바이스를 요청한 Pod에 탑재하는 EFA 디바이스 플러그인이 새로 출시됨에 따라 이 플러그인을 활용하여 EFA를 Kubernetes의 분산 훈련 애플리케이션에 손쉽게 통합할 수 있습니다. 이렇게 하면 기계 학습 훈련 작업을 수평으로 확장할 때 대역폭을 추가하여 지속적으로 증가하는 모델 크기를 수용할 수 있습니다. 이제 다수의 EFA 디바이스가 포함된 최신 EC2 GPU 기반 인스턴스 유형(예: P4d)을 활용하여 모델 훈련 시간을 크게 개선할 수 있습니다.