AWS PCS agora fornece uma AMI de deep learning pronta para produção
Hoje, o Serviço de Computação Paralela da AWS (AWS PCS) lança a DLAMI pronta para PCS, uma imagem de máquina da Amazon mantida pela AWS e baseada na AMI Deep Learning Base GPU (Ubuntu 24.04). Ela fornece uma base de qualidade de produção para treinamento de IA/ML e computação de alta performance (HPC), com componentes essenciais de infraestrutura pré‑instalados e testados para garantir compatibilidade.
O AWS PCS é um serviço gerenciado que facilita a execução e a escalabilidade de workloads de HPC e a criação de modelos científicos e de engenharia na AWS usando o Slurm. O AWS PCS pode ser usado para criar ambientes completos e elásticos que integram ferramentas de computação, armazenamento, rede e visualização. O AWS PCS simplifica as operações de cluster com atualizações gerenciadas e recursos integrados de observabilidade, ajudando a eliminar a carga de manutenção. Você pode trabalhar em um ambiente familiar, concentrando-se em sua pesquisa e inovação em vez de se preocupar com a infraestrutura.
A AMI herda o sistema operacional, os drivers de GPU NVIDIA, o kit de ferramentas CUDA, os drivers EFA e o cliente Lustre da AMI Deep Learning Base GPU de origem e adiciona os utilitários PCS Agent, Slurm for PCS e EFS. Várias versões compatíveis do Slurm estão incluídas, e a versão correta é ativada automaticamente com base na configuração do seu cluster. Você pode adicionar frameworks, bibliotecas e softwares de aplicação para completar o seu ambiente. A AWS lança AMIs atualizadas regularmente quando a DLAMI de origem ou os componentes do PCS são atualizados, com o fornecimento de patches de segurança contínuos e atualizações de drivers.
A DLAMI pronta para PCS da AWS está disponível para arquiteturas x86_64 e arm64, sem custo adicional, em todas as regiões da AWS que oferecem o AWS PCS. Para começar a usá-la, especifique uma AMI pronta para PCS ao configurar seus grupos de nós de computação. Para obter mais informações, consulte Using PCS-ready DLAMI no Guia do usuário do AWS PCS. Para uma arquitetura de cluster de referência construída sobre a DLAMI pronta para PCS, consulte o repositório awesome‑distributed‑ai no GitHub.