Publicado en: Nov 2, 2020
Nos complace anunciar que Elastic Fabric Adapter (EFA) es compatible a partir de ahora con el acceso remoto directo a memoria (RDMA) GPUDirect de NVIDIA. La compatibilidad de GPUDirect RDMA con EFA estará disponible en instancias P4d de Amazon Elastic Compute Cloud (Amazon EC2), la nueva generación de instancias basadas en GPU de AWS. P4d brinda el mejor rendimiento para el entrenamiento con aprendizaje automático (ML) e informática de alto rendimiento (HPC) en la nube para aplicaciones como procesamiento de lenguaje natural, detección y clasificación de objetos, análisis sísmico y descubrimiento de fármacos informático. La compatibilidad de GPUDirect RDMA con EFA permite a las tarjetas de interfaz de red (NIC) acceder de forma directa a la memoria GPU. Esto evita copias de memoria extra, lo que hace que la comunicación de GPU a GPU remota entre instancias de Amazon EC2 basadas en una GPU de NVIDIA sea más rápida, y reduce la sobrecarga organizativa en CPU y aplicaciones de usuarios. Como resultado, los clientes que ejecuten aplicaciones que utilicen la biblioteca de comunicación colectiva (NCCL) de NVIDIA en P4d podrán acelerar aún más sus cargas de trabajo estrechamente asociadas de varios nodos.
Las instancias P4d entregan un costo hasta un 60 % menor para entrenar y un rendimiento de aprendizaje profundo 2,5 veces superior con 2,5 veces la memoria, el doble de rendimiento de punto flotante de precisión doble y cuatro veces el almacenamiento SSD basado en NVMe local en comparación con las instancias P3 y P3dn de la generación anterior. Las instancias P4d están disponibles en el tamaño p4d.24xl, con 96 vCPU, 8 GPU NVIDIA A100, 1,1 TB de memoria de instancia, 8 TB de almacenamiento SSD basado en NVMe local, 19 Gbps de ancho de banda de EBS con ráfagas y 400 Gbps de ancho de banda de red con EFA y GPUDirect RDMA.
EFA es una interfaz de red personalizada para las instancias de Amazon EC2 que permite a los clientes ejecutar aplicaciones que requieren altos niveles de comunicación entre instancias a escala en AWS. Para obtener más información sobre cómo utilizar EFA, visite la documentación sobre EFA. Para más información sobre escalar cargas de trabajo de ML y HPC con EFA, consulte los talleres de HPC de AWS.