Entregue datos de alta calidad en los lagos de datos y canalizaciones
Cientos de miles de clientes crean lagos de datos, que se pueden convertir en “pantanos de datos”, lagos sin calidad de datos. Configurar la calidad de datos es un proceso tedioso que consume tiempo. Para eso debe analizar y crear manualmente reglas de calidad y un código de escritura que lo alerte cuando la calidad se deteriore. Calidad de datos de AWS Glue reduce estos esfuerzos de calidad manual de días a horas. Calidad de datos de AWS Glue calcula automáticamente las estadísticas, recomienda reglas de calidad, monitorea y genera alertas cuando detecta que la calidad se ha deteriorado. De esta forma, identificar los datos faltantes, obsoletos o erróneos antes de que afecten a su negocio se vuelve un proceso más ágil.
Características clave
Recomendaciones de reglas automáticas personalizadas para sus datos
Comenzar con la calidad de datos puede ser difícil, porque es necesario analizar datos manualmente para crear reglas de calidad. Calidad de datos de AWS Glue automáticamente calcula estadísticas para sus conjuntos de datos. Utiliza estadísticas para recomendar un conjunto de reglas de calidad que verifican la novedad, precisión e integridad. Puede establecer reglas recomendadas, descartarlas o agregar reglas nuevas de ser necesario. Si detecta problemas de calidad, Calidad de datos de AWS Glue también lo alerta para que pueda tomar medidas.
Consiga calidad de datos en reposo y en canalizaciones
Sus datos descansan en distintos repositorios y se mueven de uno a otro. Es importante controlar la calidad de los datos tanto cuando llegan como cuando están en tránsito. Las reglas de Calidad de datos de AWS Glue se pueden aplicar a los datos en reposo en sus conjuntos y lagos de datos, así como también a canalizaciones de datos enteras en las que los datos están en constante movimiento. Puede aplicar reglas en varios conjuntos de datos. Para las canalizaciones de datos creadas por AWS Glue Studio, puede aplicar una transformación para evaluar la calidad de la canalización entera. También puede delimitar reglas para detener la canalización si la calidad se deteriora. Así, evita que los datos erróneos lleguen en sus lagos de datos.
Calidad de datos rentable, sin servidor, a escala de petabyte sin bloqueo
AWS Glue no utiliza servidores, así que puede escalar sin tener que gestionar infraestructura. Escala a cualquier tamaño de datos e incluye facturación por uso para incrementar la agilidad y mejorar los costos. Calidad de datos de AWS Glue utiliza Deequ, un marco de trabajo de código abierto creado por Amazon y que se utiliza para administrar conjuntos de datos a escala petabyte. Dado que está creado con código abierto, Calidad de datos de AWS Glue proporciona flexibilidad y portabilidad sin bloqueo.
Comprender y corregir los problemas de calidad de los datos
Cuando se producen problemas con la calidad de los datos, puede utilizar Calidad de datos de AWS Glue para profundizar en los datos y evaluarlos y corregirlos. Puede utilizar esta información sobre la calidad de los datos para implementar nuevas reglas y procesos para mejorar sus datos en el futuro.