Conector do Amazon S3 para PyTorch já oferece suporte ao ponto de verificação distribuído
Agora, o Conector do Amazon S3 para PyTorch oferece suporte ao ponto de verificação distribuído (DCP), melhorando o tempo de gravação de pontos de verificação no Amazon S3. O DCP é um recurso do PyTorch para salvar e carregar modelos de machine learning (ML) de vários processos de treinamento em paralelo. O PyTorch é uma estrutura de ML de código aberto usada para criar e treinar modelos de ML.
Geralmente, os trabalhos de treinamento distribuídos duram várias horas ou até dias e os pontos de verificação são gravados com frequência para melhorar a tolerância a falhas. Por exemplo, trabalhos de treinamento de grandes modelos de base costumam durar vários dias e geram pontos de verificação com centenas de gigabytes de tamanho. O uso do DCP com o Conector do Amazon S3 para PyTorch ajuda você a reduzir o tempo de gravação desses grandes pontos de verificação no Amazon S3, mantendo a utilização dos recursos computacionais e, essencialmente, reduzindo os custos de computação.
O conector do Amazon S3 para PyTorch é um projeto de código aberto. Para começar a usar, acesse a página do GitHub.