게시된 날짜: Nov 2, 2020
Elastic Fabric Adapter(EFA)가 이제 NVIDIA GPUDirect Remote Direct Memory Access(RDMA)를 지원합니다. EFA에서의 GPUDirect RDMA 지원은 AWS에서의 차세대 GPU 기반 인스턴스인 Amazon Elastic Compute Cloud(Amazon EC2) P4d 인스턴스에서 제공됩니다. P4d는 자연어 처리, 객체 탐지 및 분류, 지진 분석, 컴퓨터를 활용한 신약 개발 등의 활용 분야를 위해 클라우드에서 기계 학습(ML) 훈련 및 고성능 컴퓨팅(HPC)을 수행하기 위한 최상의 성능을 제공합니다. EFA에서 GPUDirect RDMA를 지원함으로써 네트워크 인터페이스 카드(NIC)가 GPU 메모리에 직접 액세스할 수 있습니다. 이를 통해 추가적인 메모리 사본을 방지할 수 있어 NVIDIA GPU 기반 Amazon EC2 인스턴스 전반에서 원격 GPU 간 통신이 더욱 빠르게 수행되고 CPU 및 사용자 애플리케이션에서의 오케스트레이션 부담이 줄어들 수 있습니다. 이로 인해 P4d에서 NVIDIA Collective Communications Library(NCCL)를 사용하여 애플리케이션을 실행 중인 고객들은 멀티 노드와 긴밀하게 결합된 워크로드를 더욱 빠르게 실행할 수 있습니다.
P4d 인스턴스에서는 이전 세대 P3 및 P3dn 인스턴스에 비해 학습 비용의 최대 60% 감소, 2.5배 증가한 메모리를 통한 딥 러닝 성능의 2.5배 이상 향상, 배정밀 부동 소수점 성능의 2배 증가, 로컬 NVMe 기반 SSD 스토리지의 4배 증가가 달성되었습니다. 그리고 p4d.24xl 크기로 이용할 수 있어, 96개의 vCPU, 8개의 NVIDIA A100 GPU, 1.1TB의 인스턴스 메모리, 8TB의 로컬 NVMe 기반 SSD 스토리지, 19Gbps의 EBS 버스트 대역폭, EFA 및 GPUDirect RDMA 포함 400Gbps 네트워킹 대역폭이 제공됩니다.
EFA는 Amazon EC2 인스턴스에 대한 맞춤형 네트워크 인터페이스이며, 이를 통해 고객은 AWS에서 높은 수준의 인스턴스 간 통신이 필요한 애플리케이션을 대규모로 실행할 수 있습니다. EFA 사용 방법에 대한 자세한 내용은 EFA 설명서를 참조하십시오. EFA를 사용한 HPC 및 ML 워크로드 확장 방법에 대한 자세한 내용은 AWS HPC 워크숍을 참조하십시오.