AWS Glue Data Quality

Forneça dados de alta qualidade em seus data lakes e pipelines

Os data lakes podem se tornar pântanos de dados sem a devida supervisão. Configurar verificações de qualidade de dados é demorado, tedioso e propenso a erros. Você deve criar manualmente regras de qualidade de dados e escrever código para monitorar os pipelines de dados e alertar os consumidores de dados quando a qualidade dos dados se deteriorar. O AWS Glue Data Quality reduz esses esforços manuais de qualidade de dias para horas. Ele calcula estatísticas automaticamente, recomenda regras de qualidade, monitora e alerta você quando detecta problemas. Para problemas ocultos e difíceis de encontrar, o Glue Data Quality usa algoritmos de ML. O poder combinado da abordagem baseada em regras e de ML, juntamente com a solução sem servidor, escalável e aberta, permite que você forneça dados de alta qualidade para tomar decisões comerciais confiantes. 

AWS Glue Data Quality overview (1:27)

Atributos do AWS Glue Data Quality

O AWS Glue não tem servidor, então você pode escalar sem precisar gerenciar a infraestrutura. Ele pode ser escalado para qualquer tamanho de dados e apresenta cobrança conforme o uso para aumentar a agilidade e melhorar os custos. O AWS Glue Data Quality usa o Deequ, uma framework de código aberto criada pela Amazon usada para gerenciar conjuntos de dados em escala de petabytes. Por ser criado usando código aberto, o AWS Glue Data Quality oferece flexibilidade e portabilidade sem bloqueios.
O AWS Glue Data Quality calcula automaticamente as estatísticas para os seus conjuntos de dados. Ele usa essas estatísticas para recomendar um conjunto de regras de qualidade que verifica a atualidade, a precisão, a integridade e até mesmo problemas difíceis de encontrar. Você pode ajustar as regras recomendadas, descartar regras ou adicionar novas regras conforme necessário. Se detectar problemas de qualidade, o AWS Glue Data Quality também alertará você para que você possa agir sobre eles.
O AWS Glue Data Quality é inteligente. Ele aprende padrões sobre estatísticas de dados coletadas ao longo do tempo usando algoritmos de ML. Ele detecta anomalias, padrões de dados incomuns e alerta os usuários. Ele também cria regras automaticamente para monitorar esses padrões específicos para que você possa criar regras de qualidade de dados progressivamente.
Seus dados ficam em diferentes repositórios e se movem de um para o outro. É importante monitorar a qualidade dos dados quando eles chegam e quando estão em trânsito. As regras do AWS Glue Data Quality podem ser aplicadas a dados em repouso nos seus conjuntos de dados e a data lakes e pipelines de dados inteiros em que os dados estão em movimento. Você pode aplicar regras a vários conjuntos de dados. Para pipelines de dados criados no AWS Glue Studio, você pode aplicar uma transformação para avaliar a qualidade de todo o pipeline por uma fração do custo, pois os dados já estão na memória. Você também pode definir regras para interromper o pipeline em caso de deterioração da qualidade, evitando que dados incorretos cheguem aos seus data lakes.
Use mais de 25 regras predefinidas do AWS Glue Data Quality para validar os dados e identificar dados específicos que causam problemas. Implemente verificações de qualidade de dados que comparem diferentes conjuntos de dados em fontes de dados distintas em minutos com regras prontas para uso. Com o Glue ETL, você pode corrigir facilmente esses problemas e ingerir dados de alta qualidade nos repositórios de dados.