Publicado en: Jun 6, 2023

AWS anuncia la versión preliminar de calidad de datos de AWS Glue, una nueva capacidad que mide y supervisa automáticamente la calidad del lago de datos y la canalización de datos. AWS Glue es un servicio de integración de datos escalable y sin servidor que facilita la detección, la preparación, el traslado y la integración de datos de varias fuentes.

La calidad de datos de AWS Glue ayuda a reducir la necesidad de realizar trabajos manuales de calidad de los datos al analizar automáticamente los datos para recopilar estadísticas de datos. Utiliza Deequ de código abierto para evaluar las reglas y medir y monitorear la calidad de los datos de los lagos de datos a escala de petabytes. Luego, recomienda reglas de calidad de los datos para comenzar. Puede actualizar las reglas recomendadas o añadir reglas nuevas. Si la calidad de los datos se deteriora, puede configurar acciones para alertar a los usuarios y profundizar en la causa principal del problema. Las reglas y acciones de calidad de los datos también se pueden configurar en las canalizaciones de datos de AWS Glue, lo que ayuda a evitar que los datos “defectuosos” ingresen a los lagos de datos y almacenes de datos.

Con la disponibilidad general, hemos lanzado nuevas funciones para identificar registros específicos que no superaron las comprobaciones de calidad de los datos y hemos añadido nuevas reglas que validan la coherencia de los datos en diferentes conjuntos de datos. Ahora puede validar la calidad de los datos de los conjuntos de datos de Amazon Redshift, Apache Iceberg, Apache HUDI y Delta Lake que están catalogados en el Catálogo de datos de AWS Glue. Los resultados de calidad de datos de AWS Glue ahora se publican en Amazon EventBridge, lo que simplifica la forma en que los usuarios reciben alertas e integra los resultados de calidad de los datos con otras aplicaciones. Estas funciones lo ayudan a realizar comprobaciones sólidas de la calidad de los datos en varios conjuntos de datos e identificar problemas para corregirlos.

La calidad de datos de AWS Glue suele estar disponible en todas las regiones de AWS en las que está disponible AWS Glue.

Para obtener más información, visite Calidad de datos de AWS Glue.