Publicado: Mar 30, 2021
Com o AWS Glue DataBrew, agora você pode detectar visualmente discrepâncias em dados de seu data lake, data warehouses e outras fontes de dados acessíveis por JDBC. Você pode lidar ainda mais com discrepâncias substituindo, removendo, reescalando ou sinalizando-as usando métodos matemáticos e algorítmicos, como escore z (para encontrar a diferença do valor médio e dividi-lo pelo desvio padrão), escore z modificado (para calcular a diferença do desvio absoluto da mediana), intervalos interquartis (para calcular valores entre o primeiro quartil e o terceiro quartil) e uma ou mais transformações, como criar uma coluna de sinalizadores, aplicar funções de janela ou escolher entre mais de 250 outras transformações.
Para análises e casos de uso de machine learning, os conjuntos de dados geralmente contêm discrepâncias com informações valiosas ou anormalidades sem sentido causadas por erros de medição e registro. Incluir ou excluir discrepâncias nos conjuntos de dados pode afetar diretamente o resultado da análise ou dos modelos de machine learning e as decisões tomadas com base nesses dados. Ao trabalhar com pequenas amostras dos dados de data lake e data warehouses, é necessário decompor e analisar os dados várias vezes no código para detectar e tratar todas as discrepâncias nos dados, pois não há uma maneira visual de observá-los. Com o DataBrew, agora você pode não apenas exibir visualmente as discrepâncias em seus perfis de conjunto de dados, mas também tratá-las apropriadamente sem escrever qualquer código.
O AWS Glue DataBrew é uma ferramenta visual de preparação de dados que facilita a limpeza e a normalização de dados usando mais de 250 transformações pré-criadas para preparação de dados, sem a necessidade de escrever qualquer código.
Para saber mais, assista a este vídeo de introdução ou use um conjunto de dados de amostra para explorar o DataBrew. Para começar, acesse o Console de Gerenciamento da AWS ou instale o plug-in do DataBrew em seu ambiente de notebook e consulte a documentação do DataBrew.