Publicado: Feb 11, 2021
Ao executar trabalhos de perfil no AWS Glue DataBrew para gerar automaticamente mais de 40 estatísticas de qualidade de dados, como cardinalidade no nível de coluna, correlações numéricas, valores exclusivos, desvio padrão e outras estatísticas, agora você pode configurar o tamanho do conjunto de dados que deseja analisar. Isso permite que você personalize seu perfil para ser executado em x% do conjunto de dados para conjuntos de dados realmente grandes ou se concentre em uma subamostra do conjunto de dados para resultados mais rápidos.
Depois que o trabalho de perfil é concluído executando a análise, o DataBrew exibe todas as estatísticas em um painel de perfil visual no console e armazena as estatísticas brutas como um objeto JSON em seu bucket do Amazon S3. Com isso, você pode monitorar a qualidade dos dados recebidos ao longo do tempo, detectar alterações inesperadas ou indesejáveis nos dados e configurar alertas automatizados de qualidade de dados em minutos, em vez de horas, dias e semanas, sem escrever nenhum código.
Para começar, acesse o AWS Management Console ou instale o plugin do DataBrew em seu ambiente de notebooke consulte a documentação do DataBrew.