Publicado: Mar 26, 2021
O Amazon Elastic Kubernetes Service (EKS) agora oferece suporte ao Elastic Fabric Adapter (EFA), permitindo que as aplicações alcancem o desempenho de um cluster de treinamento de machine learning on-premise, com a escalabilidade, a flexibilidade e a elasticidade fornecidas pelos clusters Kubernetes gerenciados pelo EKS.
O Kubernetes tornou-se uma plataforma líder para aplicações de machine learning distribuídas, pois facilita o escalonamento de clusters para um grande número de nós com instâncias baseadas em GPU poderosas. Em escala, a largura de banda da rede pode se tornar um gargalo para cargas de trabalho distribuídas. O Elastic Fabric Adapter (EFA) é uma interface de rede para instâncias do Amazon EC2 que permite que você execute aplicações que exigem altos níveis de comunicação entre nós em grande escala na AWS. Agora você pode integrar facilmente o EFA em aplicações de treinamento distribuídos no Kubernetes, aproveitando o plug-in de dispositivo recém-lançado do EFA, que descobre e monta automaticamente dispositivos EFA em pods que os solicitam. Isso permite que você adicione largura de banda à medida que os trabalhos de treinamento de ML são dimensionados horizontalmente para acomodar tamanhos de modelo cada vez maiores. Agora você pode aproveitar todas as vantagens dos tipos de instância mais recentes com base em GPU do EC2, como P4d, que incluem vários dispositivos do EFA para melhorias ainda maiores com o tempo de treinamento do modelo.
O Elastic Fabric Adapter é compatível com todos os clusters EKS, e as instâncias habilitadas para o EFA podem ser iniciadas usando grupos de nós gerenciados, eksctl ou CloudFormation. Para começar a usar, consulte a documentação do Amazon EKS. Para saber mais sobre o Amazon EKS, acesse a página do produto. Saiba mais sobre o Elastic Fabric Adapter na documentação do EC2.