Veröffentlicht am: Nov 2, 2020
Wir freuen uns Ihnen mitzuteilen, dass Elastic Fabric Adapter (EFA) jetzt NVIDIA GPUDirect Remote Direct Memory Access (RDMA) unterstützt. GPUDirect RDMA Support für EFA wird auf Amazon Elastic Compute Cloud (Amazon EC2) P4d-Instances verfügbar sein - die nächste Generation GPU-basierter Instances auf AWS. P4d bietet die höchste Leistung für Machine Learning (ML) Training und High Performance Computing (HPC) in der Cloud für Anwendungen wie eine natürliche Sprachverarbeitung, Objekterkennung und Klassifizierung, seismische Analyse und computergestützte Wirkstoffentdeckung. GPUDirect RDMA Support für EFA ermöglicht, dass Netzwerkkarten (NICs) direkt auf den GPU-Speicher zugreifen. Dies verhindert zusätzliche Speicherkopien, was die ferngesteuerte GPU-to-GPU-Kommunikation über NIVIDIA GPU-basierte Amazon-EC2-Instances beschleunigt und den Orchestrierungsaufwand auf CPUs und Nutzeranwendungen reduziert. Dadurch können unsere Kunden, die Anwendungen mit NIVIDIA Collective Communications Library (NCCL) auf P4d ausführen, ihre fest gekoppelten Multi-Node-Workloads weiter beschleunigen.
P4d-Instances senken die Kosten für Schulungen bis zu 60 % und bieten über 2,5-fach bessere Deep-Learning-Performance mit 2,5-fachem Speicher, zweifache Double-Precision-Gleitkommaleistung und 4-fach lokalen NVMe-basierten SSD-Speicher im Vergleich zu P3- und P3dn-Instances der vorherigen Generation. Sie sind verfügbar in der Größe p4d.24xl mit 96 vCPUs, 8 NVIDIA A100 GPUs, 1,1 TB Instance-Speicher, 8 TB lokaler NVMe-basierter SSD-Speicher, 19 Gbps EBS Burst Bandbreite und 400 Gbps Netzwerk-Bandbreite mit EFA und GPUDirect RDMA.
EFA ist eine maßgeschneiderte Netzwerkschnittstelle für Amazon-EC2-Instances, die es Kunden ermöglicht, Anwendungen mit hohen Anforderungen an die Inter-Instance-Kommunikation skaliert auf AWS auszuführen. Mehr über die Verwendung von EFA erfahren Sie in der EFA-Dokumentation. Mehr über die Skalierung von HPC- und ML-Workloads mit EFA erfahren Sie in den AWS HPC Workshops.