Publicado: Oct 7, 2021
O Amazon SageMaker agora suporta o modo de arquivo rápido para acessar dados em trabalhos de treinamento. Isso habilita o acesso de alta performance a dados ao transmitir diretamente do Amazon S3 sem alterações de código a partir do Modo de arquivo existente. Por exemplo, treinar um modelo de agrupamento K-means em um conjunto de dados de 100 GB levou 28 minutos com o Modo de arquivo, mas apenas 5 minutos com o Modo de arquivo rápido (diminuição de 82%).
Treinar modelos de machine learning frequentemente requer grandes quantidades de dados. Acessar esses dados com eficiência ajuda a melhorar a performance do treino dos modelos. Até agora, o SageMaker oferecia dois modos para ler dados diretamente do Amazon S3: Modo de arquivo e Modo de tubo. O Modo de arquivo baixa dado de treinamento para um volume criptografado Amazon EBS anexado à instância de treinamento. Esse download precisa estar terminado antes de iniciar o treinamento do modelo. O Modo de tubo transmite os dados diretamente para o algoritmo de treinamento, o que leva a uma performance melhor, mas requer alterações no código.
O Modo arquivo rápido combina a facilidade de utilização do Modo arquivo existente com a performance do Modo tubo. Isso permite acesso conveniente aos dados como se tivessem sido baixados localmente, o mesmo tempo em que oferece o benefício em performance de transmitir os dados diretamente do Amazon S3. Como resultado, o treinamento pode iniciar sem esperar até que todo o conjunto de dados seja baixado para as instâncias de treinamento. O Modo de arquivo rápido está disponível sem custos adicionais.
Para saber mais, veja a documentação para acessar dados de treinamento no SageMaker. Para iniciar, faça login no console do Amazon SageMaker.