Elastic Fabric Adapter

Execute aplicações de HPC e ML em grande escala

O Elastic Fabric Adapter (EFA) é uma interface de rede para instâncias do Amazon EC2 que permite aos clientes executar aplicações que exigem altos níveis de comunicação entre nós em grande escala na AWS. Sua interface de hardware personalizada fora do sistema operacional (SO) aumenta a performance das comunicações entre instâncias, o que é essencial para escalar esses aplicativos. Com o EFA, aplicativos de computação de alta performance (HPC) usando a Message Passing Interface (MPI) e aplicativos de machine learning (ML) usando a NVIDIA Collective Communications Library (NCCL) podem escalar para milhares de CPUs ou GPUs. Como resultado, você obtém a performance de clusters de HPC locais com a elasticidade e a flexibilidade sob demanda da Nuvem AWS.

O EFA está disponível como um recurso de redes opcional do EC2 e pode ser habilitado em qualquer instância compatível com o EC2 sem custo adicional. Além disso, ele funciona com as interfaces, as APIs e as bibliotecas mais usadas para comunicações entre nós a fim de que você possa migrar suas aplicações de HPC para a AWS com pouca ou nenhuma modificação.

Benefícios

Resultados mais rápidos

O mecanismo exclusivo da rede de bypass do SO do EFA fornece um canal de baixa latência e baixa variação de sinal para comunicações entre instâncias. Sendo assim, suas aplicações de HPC fortemente acopladas ou de machine learning distribuídas são escaladas para milhares de núcleos, fazendo com que as aplicações sejam executadas com maior rapidez.

Configuração flexível

É possível habilitar o suporte do EFA em uma lista crescente de instâncias do EC2 e obter flexibilidade para escolher a configuração de computação adequada para sua workload. Basta alterar as configurações de cluster conforme suas necessidades são alteradas e habilitar o suporte do EFA em suas novas instâncias de computação. Reservas prévias ou planejamentos antecipados não são necessários.

Migração sem complicações

O EFA usa a interface Libfabric e as APIs Libfabric para realizar comunicações. Como quase todos os modelos de programação de HPC oferecem suporte a essa interface, é possível migrar suas aplicações de HPC existentes para a nuvem com pouca ou nenhuma modificação.

Performance do EFA

O EFA fornece uma melhoria de quatro vezes na escala em relação ao ENA para uma simulação de CFD padrão, conforme apresentado no gráfico acima.

O solucionador para esta avaliação comparativa foi fornecido pela Metacomp Technologies.

A CFD Direct, cliente da AWS, mantém a plataforma conhecida OpenFOAM para a dinâmica dos fluidos computacional e também produz a CFD Direct From the Cloud (CFDDFC), uma oferta do AWS Marketplace que facilita a execução do OpenFOAM na AWS. A empresa tem testado e comparado o EFA e recentemente compartilhou as medições em uma publicação do blog intitulada “OpenFOAM HPC with AWS EFA” (OpenFOAM de HPC com o AWS EFA). Na publicação, ela relata simulações da aerodinâmica externa ao redor de um carro. Essa simulação é escalada extralinearmente para mais de 200 núcleos, diminuindo gradualmente para uma escala linear em mil núcleos (cerca de 100 mil células de simulação por núcleo).
 

Como funciona

Casos de uso

Fluidodinâmica computacional

Os avanços nos algoritmos da dinâmica dos fluidos computacional (CFD) possibilitam que os engenheiros simulem fenômenos de fluxo cada vez mais complexos e a HPC ajuda a reduzir os tempos de resposta. Com o EFA, os engenheiros de projeto passaram a aumentar a escala dos trabalhos de simulação horizontalmente para experimentar parâmetros mais ajustáveis, o que conduz a resultados mais rápidos e precisos.

Modelagem climática

Modelos climáticos complexos requerem alta largura de banda de memória, interconexões rápidas e sistemas de arquivos paralelos robustos para fornecer resultados precisos. Quanto mais próximo o espaçamento da grade no modelo, mais precisos serão os resultados e mais recursos computacionais serão requeridos pelo modelo. O EFA oferece uma interconexão rápida que permite que as aplicações de modelagem climática aproveitem os recursos de escalabilidade virtualmente ilimitados da Nuvem AWS e obtenham previsões mais precisas em menos tempo.

Machine Learning

O treinamento de modelos de aprendizado profundo pode ser significativamente acelerado com a computação distribuída em GPUs. As principais estruturas de aprendizado profundo, como Caffe, Caffe2, Chainer, MxNet, TensorFlow e PyTorch, já integraram a NCCL para aproveitar seus grupos de várias GPUs para comunicações entre nós. O EFA é otimizado para a NCCL na AWS, o que aprimora o throughput e a escalabilidade desses modelos de treinamento e conduz a resultados mais rápidos.

Recursos

Now Available – Elastic Fabric Adapter (EFA) for Tightly-Coupled HPC Workloads (Já disponível: Elastic Fabric Adapter (EFA) para workloads de HPC fortemente acopladas)
29 de abril de 2019
 
AWS re:Invent 2018: Scaling HPC Applications on EC2 w/ Elastic Fabric Adapter (AWS re:Invent 2018: escalabilidade de aplicações de HPC no EC2 com o Elastic Fabric Adapter)
Nesta palestra do re:Invent 2018, apresentamos o Elastic Fabric Adapter e discutimos como o EFA aprimora a rede entre instâncias no Amazon EC2.
Deep Dive on OpenMPI and Elastic Fabric Adapter (EFA)
Nesta palestra técnica, nos aprofundaremos no OpenMPI e em seu suporte específico para o EFA do Amazon EC2 e mostraremos como obter o máximo aproveitamento de seu código e arquitetar sua solução para aprimorar a performance.

Conceitos básicos do Elastic Fabric Adapter (EFA)

Neste tutorial, você criará uma AMI e um grupo de segurança habilitados para o EFA e, em seguida, executará instâncias habilitadas para o EFA em um grupo com posicionamento em cluster usando essa AMI e esse grupo de segurança.
 
Saiba mais sobre serviços da AWS para HPC

Saiba mais sobre os serviços da AWS que você pode usar para criar uma solução de HPC na AWS

Saiba mais 
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastrar-se 
Comece a usar a HPC na AWS

Crie seu primeiro cluster de HPC na AWS

Faça login