Publicado: Nov 2, 2020
Temos o prazer de anunciar que o Elastic Fabric Adapter (EFA) agora é compatível com o acesso remoto direto à memória (RDMA) do NVIDIA GPUDirect. O suporte a RDMA do GPUDirect no EFA estará disponível nas instâncias P4d do Elastic Compute Cloud (Amazon EC2), a próxima geração de instâncias baseadas em GPU na AWS. A P4d oferece a mais alta performance para o treinamento em machine learning (ML) e computação de alta performance (HPC) na nuvem para aplicações como processamento de linguagem natural, detecção e classificação de objetos, análise sísmica e descoberta computacional de medicamentos. O suporte a RDMA do GPUDirect no EFA permite que as placas de interface de rede (NICs) acessem diretamente a memória de GPU. Isso evita as cópias extras de memória, tornando as comunicações entre GPUs nas instâncias do Amazon EC2 baseadas no GPU NVIDIA mais rápidas, além de reduzir as despesas de orquestração em CPUs e nas aplicações de usuários. Assim, os clientes que estiverem executando aplicações usando a NVIDIA Collective Communications Library (NCCL) na instância P4d poderão acelerar ainda mais cargas de trabalho de múltiplos nós com alto acoplamento.
As instâncias P4d oferecem até 60% de redução dos custos de treinamento e performance de aprendizado profundo 2,5 vezes melhor, com 2,5 vezes mais memória, o dobro da performance do ponto de flutuação de precisão dupla e armazenamento SSD local baseado em NVMe 4 vezes melhor quando comparado às instâncias P3 e P3dn da geração anterior. Elas estão disponíveis no tamanho p4d.24xl, fornecendo 96 vCPUs, 8 GPUs do NVIDIA A100, 1,1 TB de memória da instância, 8 TB de armazenamento SSD baseado em NVMe local, 19 Gbps de largura de banda de pico do EBS, além de 400 Gbps de largura de banda da rede com EFA e RDMA do GPUDirect.
O EFA é uma interface de rede personalizada para instâncias do Amazon EC2 que permite que os clientes executem aplicações que exigem altos níveis de comunicação entre instâncias em escala na AWS. Para saber mais sobre como usar esse recurso, consulte a documentação do EFA. Para saber mais sobre como escalar as cargas de trabalho do ML e do HPC com o EFA, visite os workshops do AWS HPC.