Publicado: Nov 11, 2022
Os trabalhos de treinamento do Amazon SageMaker já oferecem suporte a instâncias ml.trn1, baseadas em chips AWS Trainium, criados especificamente para aplicações de treinamento de ML de alta performance na nuvem. Você pode usar instâncias ml.trn1 no SageMaker para treinar modelos de processamento de linguagem natural (PLN), visão computadorizada e recomendadores em uma ampla variedade de aplicações, como reconhecimento de fala, recomendações, detecção de fraudes, classificação de imagens e vídeos, e previsões.
As instâncias ml.trn1 podem oferecer até 16 chips AWS Trainium, um chip de ML de segunda geração criado pela AWS com base no AWS Inferentia. As instâncias ml.trn1 são as primeiras instâncias do EC2 com até 800 Gbps de largura de banda da rede de Elastic Fabric Adapter (EFA). Para oferecer um paralelismo eficiente de dados e modelos, cada instância ml.trn1.32xl tem 512 GB de memória com alta largura de banda, disponibiliza até 3,4 petaflops de capacidade computacional FP16/BF16 e oferece o NeuronLink, uma interconexão não bloqueadora de alta largura de banda interna da instância.
As instâncias ml.trn1 estão disponíveis em dois tamanhos: ml.trn1.2xlarge, para experimentos com um único acelerador e treinamento de pequenos modelos com economia e ml.trn1.32xlarge para treinamento de modelos em grande escala. Hoje, o treinamento de modelos do SageMaker oferece suporte a instâncias ml.trn1 nas regiões da AWS Leste dos EUA (N. da Virgínia) e Oeste dos EUA (Oregon).
Para saber mais sobre as instâncias ml.trn1, acesse o blog de notícias da AWS ou a página da instância Trn1. Para começar a usar as instâncias ml.trn1, faço login no console do Amazon SageMaker. Para saber mais sobre o treinamento de modelos do Amazon SageMaker, acesse a nossa página.