Calidad de datos de AWS Glue

Entregue datos de alta calidad en los lagos de datos y canalizaciones

Los lagos de datos pueden convertirse en pantanos de datos sin la supervisión adecuada. La configuración de las comprobaciones de calidad de los datos lleva mucho tiempo, es tediosa y es propensa a errores. Debe crear reglas de calidad de datos manualmente y escribir código para supervisar las canalizaciones de datos y alertar a los consumidores de datos cuando la calidad de los datos se deteriore. Calidad de datos de AWS Glue reduce estos esfuerzos de calidad manual de días a horas. Calcula automáticamente las estadísticas, recomienda normas de calidad, supervisa y alerta cuando detecta problemas. Para problemas ocultos y difíciles de encontrar, Calidad de datos de Glue utiliza algoritmos de machine learning. La potencia combinada del enfoque basado en reglas y la tecnología de machine learning, junto con la solución abierta, escalable y sin servidores, le permiten ofrecer datos de alta calidad para tomar decisiones empresariales seguras. 

AWS Glue Data Quality overview (1:27)

Características de Calidad de datos de AWS Glue

AWS Glue no utiliza servidores, así que puede escalar sin tener que gestionar infraestructura. Escala a cualquier tamaño de datos e incluye facturación por uso para incrementar la agilidad y mejorar los costos. Calidad de datos de AWS Glue utiliza Deequ, un marco de trabajo de código abierto creado por Amazon y que se utiliza para administrar conjuntos de datos a escala petabyte. Dado que está creado con código abierto, Calidad de datos de AWS Glue proporciona flexibilidad y portabilidad sin bloqueo.
Calidad de datos de AWS Glue automáticamente calcula estadísticas para sus conjuntos de datos. Utiliza estadísticas para recomendar un conjunto de reglas de calidad que comprueban la novedad, precisión, integridad e incluso los problemas difíciles de encontrar. Puede establecer reglas recomendadas, descartarlas o agregar reglas nuevas de ser necesario. Si detecta problemas de calidad, Calidad de datos de AWS Glue también lo alerta para que pueda tomar las medidas necesarias.
Calidad de datos de AWS Glue es inteligente. Aprende los patrones de las estadísticas de datos recopiladas a lo largo del tiempo mediante algoritmos de ML. Detecta anomalías, patrones de datos inusuales y alerta a los usuarios. También crea reglas automáticamente para monitorear estos patrones específicos, de modo que se puedan crear reglas de calidad de datos de forma progresiva.
Sus datos descansan en distintos repositorios y se mueven de uno a otro. Es importante controlar la calidad de los datos tanto cuando llegan como cuando están en tránsito. Las reglas de Calidad de datos de AWS Glue se pueden aplicar a los datos en reposo en sus conjuntos y lagos de datos, así como también a canalizaciones de datos enteras en las que los datos están en constante movimiento. Puede aplicar reglas en varios conjuntos de datos. En el caso de las canalizaciones de datos creadas en AWS Glue Studio, puede aplicar una transformación para evaluar la calidad de toda la canalización a una fracción del coste, debido a que los datos ya están en la memoria. También puede delimitar reglas para detener la canalización si la calidad se deteriora. Así, evita que los datos erróneos lleguen en sus lagos de datos.
Utilice más de 25 reglas de calidad de datos de AWS Glue listas para usar y valide sus datos e identifique los datos específicos que causan problemas. Implemente comprobaciones de calidad de los datos que comparen diferentes conjuntos de datos en el origen de datos dispares en cuestión de minutos con reglas listas para usar. Con Glue ETL, puede solucionar fácilmente estos problemas e ingerir datos de alta calidad en sus repositorios de datos.