El lineaje de datos ya está disponible de forma general en Amazon DataZone y en la última generación de Amazon SageMaker

Publicado en: 3 de dic de 2024

AWS anuncia la disponibilidad general del linaje de datos en Amazon DataZone y la última generación de Amazon SageMaker, una capacidad que captura automáticamente el linaje de AWS Glue y Amazon Redshift para visualizar los eventos de linaje desde el origen hasta el consumo. Al ser compatible con OpenLineage, esta característica permite a los productores de datos aumentar el linaje automatizado con eventos de linaje capturados desde sistemas compatibles con OpenLineage o mediante las API, para ofrecer una vista integral del movimiento de datos a los consumidores de datos.

Esta característica automatiza la captura del linaje del esquema y las transformaciones de los activos y columnas de datos de las ejecuciones de AWS Glue, Amazon Redshift y Spark en herramientas para mantener la coherencia y reducir los errores. Con la automatización integrada, los administradores de dominios y los productores de datos pueden automatizar la captura y el almacenamiento de eventos de linaje cuando los datos están configurados para compartirlos en el catálogo de datos de la empresa. Los consumidores de datos pueden confiar en el origen de un activo gracias a la visión integral de su linaje, mientras que los productores de datos pueden evaluar el impacto de los cambios en un activo mediante la comprensión de su consumo. Además, la característica de linaje de datos le asigna una versión al linaje con cada evento, lo que permite a los usuarios visualizar el linaje en cualquier momento o comparar las transformaciones en el historial de un activo o trabajo. Este linaje histórico proporciona una comprensión más profunda de cómo han evolucionado los datos, algo esencial para la solución de problemas, la auditoría y la validación de la integridad de los activos de datos.

La característica de linaje de datos está disponible de forma general en todas las regiones de AWS en las que están disponibles Amazon DataZone y la última generación de Amazon SageMaker.

Para obtener más información, visite Amazon DataZone y la última generación de Amazon SageMaker.