Publicado: May 10, 2021
O Amazon SageMaker agora é compatível com Elastic Fabric Adapter (EFA) para treinamento de modelos de machine learning. O EFA é uma interface de rede para instâncias do Amazon EC2 que habilita clientes a executar aplicações que exigem altos níveis de comunicação entre nós em grande escala na AWS. O EFA pode acelerar significativamente o treinamento distribuído no SageMaker sem custo adicional. Por exemplo, treinamos o modelo de processamento de linguagem natural BERT com a biblioteca paralela de dados distribuídos do SageMaker em 32 instâncias ml.p4d.24xlarge. O treinamento era até 130% mais rápido com o EFA em comparação com o Elastic Network Adapter (ENA).
O treinamento distribuído permite que os desenvolvedores e os cientistas de dados treinem modelos mais rapidamente e melhorem a qualidade do modelo. Os clientes usam as bibliotecas de treinamento distribuído do SageMaker porque oferecem métodos rápidos e fáceis para treinar grandes modelos e conjuntos de dados de aprendizado profundo. O mecanismo de rede de bypass do sistema operacional exclusivo da EFA aperfeiçoa a performance das comunicações entre instâncias,levando a um treinamento distribuído ainda mais rápido no SageMaker.
Não há custo adicional para usar o EFA no SageMaker. Atualmente, o EFA no SageMaker é compatível com instâncias ml.p3dn.24xlarge, ml.p4d.24xlarge e ml.c5n.18xlarge. Os trabalhos de treinamento distribuído do SageMaker que usam os contêineres de aprendizado profundo do TensorFlow e do PyTorch se beneficiam automaticamente do EFA sem nenhuma intervenção dos clientes. O EFA pode ser habilitado para trabalhos de treinamento que usam uma VPC ou uma imagem personalizada do Docker com alterações mínimas de configuração.
Para saber mais sobre a compatibilidade entre o EFA e o Amazon SageMaker, consulte a documentação da biblioteca de treinamento distribuído do SageMaker ou como executar o treinamento com o EFA em seu contêiner. Para começar a usar, faça login no console do Amazon SageMaker.