Publicado: Nov 30, 2022

O AWS Glue anuncia a visualização do AWS Glue Data Quality, um novo recurso que mede e monitora automaticamente a qualidade do data lake e do pipeline de dados. O AWS Glue é um serviço de integração de dados escalável e com tecnologia sem servidor que torna mais eficiente a descoberta, preparação, movimentação e integração de dados de várias fontes. O gerenciamento da qualidade dos dados é manual e demorado. Você deve configurar regras de qualidade de dados e validar seus dados em relação a essas regras de forma recorrente, também escrevendo código para configurar alertas quando a qualidade se deteriora. Os analistas devem analisar manualmente os dados, escrever regras e, em seguida, escrever o código para implementar essas regras. 

O AWS Glue Data Quality analisa automaticamente seus dados para coletar estatísticas de dados. Em seguida, ele recomenda regras de qualidade de dados para começar. Você pode atualizar as regras recomendadas ou adicionar novas regras usando as regras de qualidade de dados fornecidas. Se a qualidade dos dados piorar, você poderá configurar ações para alertar os usuários. As regras e ações de qualidade de dados também podem ser configuradas em trabalhos de extração, transformação e carregamento (ETL) do AWS Glue em pipelines de dados. Essas diretrizes podem impedir que dados “ruins” entrem em data lakes e data warehouses. O AWS Glue usa tecnologia sem servidor, portanto, não há infraestrutura para gerenciar, e o AWS Glue Data Quality usa Deequ de código aberto para avaliar as regras. A AWS usa Deequ para medir e monitorar a qualidade dos data lakes em escala de petabytes.  

O AWS Glue Data Quality agora está disponível como versão de demonstração nas seguintes regiões da AWS: Leste dos EUA (Ohio), Leste dos EUA (Norte da Virgínia), Oeste dos EUA (Oregon), Ásia-Pacífico (Tóquio) e Europa (Irlanda).

Para saber mais, consulte a documentação do AWS Glue Data Quality para qualidade de dados nos dados em repouso, para qualidade de dados em pipelines de dados.