Publicado: Dec 20, 2023

Hoje, a AWS anuncia o lançamento de uma versão principal da biblioteca paralela de modelos do Amazon SageMaker (SMP), que agora é compatível com as APIs Fully Sharded Data Parallel (FSDP) da PyTorch e pode acelerar o treinamento do modelo de aprendizado profundo em até 20%. A SMP permite acelerar o treinamento de modelos grandes com bilhões de parâmetros ao particionar e distribuir automaticamente o modelo em vários aceleradores e instâncias de computação. Você pode começar a usar a SMP em poucos minutos e acelerar seus scripts de treinamento de FSDP da PyTorch existentes com apenas algumas linhas de código.

O FSDP da PyTorch é uma técnica popular de treinamento distribuído que reduz o consumo de memória do treinamento ao fragmentar os pesos, gradientes e estados do otimizador de um modelo entre aceleradores em um cluster. Com esta versão, as novas APIs da biblioteca paralela de modelos do SageMaker agora são compatíveis e aceleram ainda mais os scripts de treinamento do FSDP da PyTorch, permitindo que os clientes atualizem facilmente suas workloads existentes ao treinar no SageMaker. Com apenas algumas linhas de código, os clientes podem ativar técnicas de treinamento de última geração, como o paralelismo híbrido de dados fragmentados, que permite aos clientes alterar o grau de fragmentação do modelo e, assim, controlar os requisitos de memória e comunicação de seu trabalho de treinamento. Essa nova versão também amplia os recursos do FSDP para incluir técnicas de treinamento paralelo de tensores para clientes do SageMaker, permitindo o treinamento de modelos com centenas de bilhões de parâmetros ao particionar e distribuir camadas do modelo em diferentes dispositivos aceleradores. Para começar a usar o paralelo de modelo do SageMaker, consulte nossa documentação.