Publicado en: Nov 30, 2022

AWS Glue  anuncia la versión preliminar de Calidad de los datos de AWS Glue, una nueva capacidad que mide y supervisa automáticamente la calidad del lago de datos y la canalización de datos. AWS Glue es un servicio de integración de datos escalable y sin servidor que hace que sea más eficiente detectar, preparar, trasladar e integrar datos de múltiples fuentes. La administración de la calidad de los datos es manual y requiere mucho tiempo. Debe configurar reglas de calidad y validar sus propios datos contra estas reglas de forma recurrente, y también debe escribir código para configurar alertas cuando la calidad se deteriora. Los analistas deben analizar datos manualmente, escribir reglas y luego escribir código para implementar estas reglas. 

Calidad de los datos de AWS Glue analiza automáticamente sus datos para recopilar estadísticas de datos. Luego recomienda reglas de calidad de los datos para comenzar. Puede actualizar las reglas recomendadas o agregar nuevas con la ayuda de las reglas de calidad de los datos proporcionadas. Si la calidad de los datos se deteriora, puede configurar acciones para alertar a los usuarios. Las reglas y acciones de Calidad de los datos también se pueden configurar en trabajos de extracción, transformación y carga (ETL) de AWS Glue en canalizaciones de datos. Estas pautas pueden evitar que datos “de mala calidad” entren en lagos y almacenes de datos. AWS Glue es una plataforma sin servidor, por lo que no hay infraestructura que administrar, y la característica Calidad de los datos de AWS Glue utiliza Deequ de código abierto para evaluar las reglas. AWS utiliza Deequ para medir y monitorear la calidad de los datos de lagos de datos a escala de petabytes.  

Calidad de los datos de AWS Glue ahora está disponible en las siguientes regiones de AWS: Este de EE. UU. (Ohio), Este de EE. UU. (Norte de Virginia), Oeste de EE. UU. (Oregón), Asia-Pacífico (Tokio) y Europa (Irlanda).

Para obtener más información, consulte la documentación de la Calidad de los datos de AWS Glue para conocer la calidad de los datos en reposo y en las canalizaciones de datos.