Publié le: Nov 2, 2020
Nous sommes heureux d'annoncer que Elastic Fabric Adapter (EFA) prend désormais en charge NVIDIA GPUDirect Remote Direct Memory Access (RDMA). La prise en charge de GPUDirect RDMA sur EFA sera disponible sur les instances P4d d'Amazon Elastic Compute Cloud (Amazon EC2) - la prochaine génération d'instances basées sur GPU sur AWS. Le P4d offre les meilleures performances pour l'entraînement du machine learning (ML) et le calcul haute performance (HPC) dans le cloud pour les applications telles que le traitement du langage naturel, la détection et la classification d'objets, l'analyse sismique et la découverte informatique de médicaments. La prise en charge de GPUDirect RDMA sur EFA permet aux cartes d'interface réseau (NIC) d'accéder directement à la mémoire GPU. Cela évite les copies de mémoire supplémentaires, accélère la communication GPU-GPU à distance entre les instances Amazon EC2 basées sur le GPU NVIDIA et réduit la surcharge d'orchestration sur les processeurs CPU et les applications utilisateur. En conséquence, nos clients qui exécutent des applications utilisant la bibliothèque NVIDIA Collective Communications Library (NCCL) sur P4d pourront accélérer davantage leurs charges de travail multi-nœuds étroitement liées.
Les instances P4d offrent un coût d'entraînement jusqu'à 60 % inférieur et des performances de deep learning 2,5 fois supérieures avec 2,5 fois plus de mémoire, deux fois plus de performances en virgule flottante double précision, un stockage SSD local 4x basé sur NVMe par rapport aux instances P3 et P3dn de la génération précédente. Elles sont disponibles dans la taille p4d.24xl et fournissent 96 vCPU, 8 GPU NVIDIA A100, 1,1 To de mémoire d'instance, 8 To de stockage SSD local basé sur NVMe, 19 Gbps de bande passante en rafale EBS et 400 Gbps de bande passante réseau avec EFA et GPUDirect RDMA.
EFA est une interface réseau sur mesure pour les instances Amazon EC2 qui permet aux clients d'exécuter des applications nécessitant de hauts niveaux de communications entre les instances à grande échelle sur AWS. Pour en savoir plus sur la façon d'utiliser EFA, consultez notre documentation EFA. Pour en savoir plus sur la mise à l'échelle des charges de travail HPC et ML avec EFA, veuillez consulter AWS HPC Workshops.