Publicado: Jun 9, 2022
Hoje, é um prazer comunicar que o recurso de divisão de dados em conjuntos de treinamento e teste com o Amazon SageMaker Data Wrangler já está em disponibilidade geral. O Amazon SageMaker Data Wrangler reduz de semanas para minutos o tempo de agregação e preparação de dados para machine learning (ML). Com o SageMaker Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de recursos, bem como seguir cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados em uma só interface visual. Usando a ferramenta de seleção de dados do SageMaker Data Wrangler, você pode selecionar rapidamente dados de várias fontes de dados, como Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Snowflake e Databricks Delta Lake.
A partir de hoje, é possível dividir dados em conjuntos de treinamento e teste com apenas alguns cliques no Data Wrangler. Antigamente, cientistas de dados precisavam escrever código para dividir dados em conjuntos de treinamento e teste antes de treinar os modelos de ML. Com essa nova transformação para divisão em treinamento e teste do SageMaker Data Wrangler, agora é possível separar dados em conjuntos de treinamento, teste e validação para depois realizar o treinamento e a validação do modelo. O SageMaker Data Wrangler também conta com vários tipos de divisões, como: aleatória, ordenada, estratificada e por chave, bem como a opção de especificar quantos dados cada divisão terá. Por exemplo, se você criar uma divisão aleatória de dados em conjuntos de treinamento e teste, poderá treinar um modelo de machine learning no conjunto de treinamento e, em seguida, avaliá-lo no conjunto de teste. Vale lembrar que avaliar o modelo com base em dados vistos durante o treinamento pode gerar um viés. Portanto, é fundamental configurar os dados de teste separadamente antes do treinamento. Assim, a avaliação da precisão do modelo no conjunto de dados de teste mostrará uma estimativa real para o desempenho do modelo.
Para começar a usar os novos recursos do Amazon SageMaker Data Wrangler, faça upgrade para a versão mais recente e clique em File > New > Flow (Arquivo > Novo > Fluxo) no menu ou em “new data flow” (novo fluxo de dados) no launcher do SageMaker Studio. Para saber mais sobre os novos recursos, leia o blog e consulte a documentação.