Publicado: Nov 5, 2018
Agora, os algoritmos incorporados fornecidos com o Amazon SageMaker oferecem suporte ao modo de pipe para conjuntos de dados no formato CSV. Esse recurso acelera o streaming de dados do Amazon Simple Storage Service (S3) para o SageMaker em até 40% durante o treinamento de módulos de Machine Learning (ML). Com esse novo aprimoramento, os benefícios de performance do modo de pipe são estendidos ao treinamento de conjuntos de dados no formato CSV, além do formato protobuf recordIO, lançado este ano.
O Amazon SageMaker oferece suporte a dois métodos de transferência de dados de treinamento: modo de arquivo e modo de pipe. Com o modo de arquivo, os dados de treinamento são obtidos por download para um volume do EBS criptografado, conectado à instância de treinamento antes de treinar o modelo. Com o modo de pipe, os dados são transmitidos diretamente ao algoritmo de treinamento durante sua execução. Esse modo acelera as tarefas de treinamento e reduz o espaço em disco, diminuindo os custos gerais de treinamento de modelos de ML no Amazon SageMaker.
O suporte ao formato CSV com o modo de pipe está disponível em todas as regiões da AWS em que o Amazon SageMaker é oferecido hoje. Você pode ler detalhes adicionais nesta publicação de blog.