AWS Batch já oferece suporte ao agendamento de grupos no Amazon EKS usando trabalhos de vários nós em paralelo
Hoje, a AWS anuncia a disponibilidade geral de trabalhos de vários nós em paralelo (MNP) do AWS Batch no Amazon Elastic Kubernetes Service (Amazon EKS). Com os trabalhos de MNP do AWS Batch, você pode executar aplicações de computação de alta performance (HPC) fortemente acopladas, como treinamento de modelos de IA/ML de várias camadas. O AWS Batch ajuda você a iniciar, configurar e gerenciar nós de clusters do Amazon EKS sem intervenção manual.
Você pode configurar trabalhos de MNP usando a API RegisterJobsDefinition ou as seções de definições de trabalhos do Console de Gerenciamento do AWS Batch. Com os trabalhos de MNP, você pode executar o AWS Batch em workloads do Amazon EKS que abrangem várias instâncias do Amazon Elastic Compute Cloud (Amazon EC2). Os trabalhos de MNP do AWS Batch oferecem suporte a qualquer estrutura de comunicação entre instâncias baseada em IP, como NVIDIA Collective Communications Library (NCCL), Gloo, Message Passing Interface (MPI) ou Unified Collective Communication (UCC), bem como bibliotecas de machine learning e computação paralela, como PyTorch e Dask. Para obter mais informações, consulte a página de trabalhos de vários nós em paralelo no Guia do usuário do AWS Batch.
O AWS Batch oferece suporte a desenvolvedores, cientistas e engenheiros na execução eficiente de processamento em lote para treinamento, simulações e análises de modelos de ML em qualquer escala. Os trabalhos de vários nós em paralelo estão disponíveis em qualquer região da AWS que ofereça o AWS Batch.