AWS, AI/ML 애플리케이션의 확장성을 위한 EFA 업데이트 발표
AWS는 Elastic Fabric Adapter(EFA)와 Elastic Network Adapter(ENA)를 분리하는 새로운 인터페이스 유형을 출시한다고 발표했습니다. EFA는 AI/ML 워크로드 확장에 중요한 역할을 하는 고대역폭의 저지연 네트워킹을 제공합니다. ‘EFA 전용’인 새 인터페이스를 사용하면 보조 인터페이스에서 독립형 EFA 디바이스를 생성할 수 있습니다. 따라서 프라이빗 IPv4 주소 공간에 부담을 주거나 Linux와 관련된 IP 라우팅 문제를 겪지 않고도 AI/ML 애플리케이션을 실행하도록 컴퓨팅 클러스터를 확장할 수 있습니다.
지금까지는 각 EFA 인터페이스가 ENA 디바이스와 연결되어 IP 주소를 사용했습니다. 이로 인해 증가하는 AI/ML 모델 훈련 작업의 확장에 한계가 발생할 수 있었습니다. 그 외에도 Linux가 프라이빗 IP를 사용하는 인터페이스를 여러 개 사용할 때 소스 IP 불일치 및 호스트 이름 매핑 문제로 인한 패킷 손실 등의 라우팅 문제가 일어날 수 있었습니다. EFA 전용 인터페이스는 MAC 주소를 통해 작동하는 Scalable Reliable Datagram(SRD) 프로토콜을 사용하기 때문에 EFA 디바이스에 IP 주소가 할당되지 않으므로 이러한 문제가 발생하지 않습니다. EFA 전용 인터페이스는 보조 인터페이스로만 구성할 수 있으며, 기본 인터페이스는 ENA와 연결된 EFA 또는 ENA로만 사용할 수 있습니다. TCP/IP VPC 라우팅에 ENA가 필요하기 때문입니다.
EFA 전용 인터페이스는 AWS GovCloud(미국) 리전과 AWS 중국 리전을 비롯하여 모든 AWS 리전의 모든 EFA 지원 인스턴스에서 사용할 수 있습니다. 추가 비용 없이 EFA를 활성화하여 대규모로 AI/ML 워크로드를 실행할 수 있습니다. 자세한 내용은 EFS 설명서에서 확인하세요.