Publicado: Apr 27, 2022
O Amazon SageMaker Data Wrangler reduz de semanas para minutos o tempo de agregação e preparação de dados para machine learning (ML). Com o SageMaker Data Wrangler, é possível simplificar o processo de preparação de dados e engenharia de recursos, além de executar cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados em uma só interface visual. Com a ferramenta de seleção de dados do SageMaker Data Wrangler, é possível selecionar rapidamente os dados de várias origens dos dados, como Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon SageMaker Feature Store, Databricks Delta Lake e Snowflake.
Hoje estamos anunciando a disponibilidade geral de um recurso de Relatório de qualidade e insights de dados no Data Wrangler. Anteriormente, para obter insights sobre dados e qualidade de dados para ML, os cientistas de dados precisavam escrever uma quantidade significativa de código para importar, processar, analisar e, finalmente, exportar esses insights. Um processo demorado e trabalhoso. Hoje, com suporte para insights sobre dados e qualidade de dados, os cientistas de dados têm acesso instantâneo a esses insights com apenas alguns cliques. Esse novo relatório verifica automaticamente a qualidade dos dados e detecta anormalidades neles. Os cientistas e engenheiros de dados podem usar essa ferramenta para aplicar com eficiência e rapidez o conhecimento do domínio para processar conjuntos de dados para treinamento de modelos de ML.
O relatório inclui as seguintes seções:
- Estatísticas resumidas. Essa seção fornece informações sobre o número de linhas, recursos, % ausente, % válida, linhas duplicadas e um detalhamento do tipo de recurso (por exemplo, numérico vs. texto).
- Avisos de qualidade de dados. Essa seção fornece avisos que apontam para anormalidades nos dados e inclui itens como: presença de pequena classe minoritária, alta cardinalidade do destino, rótulo de destino raro, distribuição de classes desequilibrada, destino distorcido, destino com valores muito elevados, valores discrepantes no destino, rótulo de regressão frequente, valores inválidos e muito mais.
- Insights da coluna de destino. Essa seção fornece estatísticas sobre a coluna de destino, incluindo % válida, % ausente, % discrepante, estatísticas univariadas, como mínimo/mediana/máximo, e também apresenta exemplos de observações com valores de destino discrepantes ou inválidos.
- Modelo rápido. O relatório de insights de dados treina automaticamente um modelo em seus dados para fornecer uma verificação direcional do progresso da engenharia de recursos e fornece estatísticas do modelo associado no relatório.
- Importância do recurso. Essa seção fornece uma classificação de recursos pela importância deles, calculada automaticamente ao preparar os insights de dados e o relatório de qualidade de dados.
- Linhas anômalas e duplicadas. O relatório de qualidade e insights de dados detecta amostras anômalas usando o algoritmo de floresta de isolamento e também exibe linhas duplicadas que podem estar presentes no conjunto de dados.
- Detalhes do recurso. Essa seção fornece estatísticas resumidas de cada recurso no conjunto de dados, bem como a distribuição correspondente da variável de destino.
Para saber mais sobre como criar o relatório de insights e qualidade de dados e como usá-lo como parte de seu fluxo de trabalho de preparação de dados, leia o blog.
Para começar a usar os novos recursos do Amazon SageMaker Data Wrangler, é possível abrir o Amazon SageMaker Studio depois de fazer upgrade para a versão mais recente e clicar em File > New > Flow (Arquivo > Novo > Fluxo) no menu superior ou em “New Data Flow” (Novo fluxo de dados) no inicializador do SageMaker Studio. Para saber mais sobre os novos recursos, consulte a documentação.