Publicado en: Oct 14, 2022

AWS Glue incluye rastreadores basados ​​en notificaciones de eventos de Amazon S3, una capacidad que simplifica el descubrimiento de conjuntos de datos al escanear solo datos basados ​​en eventos en Amazon S3. El rastreador de Glue extrae el esquema de datos y completa automáticamente el catálogo de datos de AWS Glue, que mantiene actualizados los metadatos. Al rastrear conjuntos de datos basados ​​en eventos de S3, se reduce el tiempo para obtener información al hacer que los datos recién incorporados estén disponibles rápidamente para su análisis con sus herramientas favoritas de análisis y machine learning.

Hoy estamos ampliando esta compatibilidad con el rastreo incremental y la actualización de tablas del catálogo que se crean mediante métodos que no son rastreadores, como las llamadas a las API ejecutadas dentro de las canalizaciones de datos. Con esta característica, el rastreo incremental ahora se puede descargar de las canalizaciones de datos al rastreador de Glue programado, lo que reduce los rastreos a eventos S3 incrementales.

Para lograr un rastreo incremental, los clientes pueden configurar las notificaciones de eventos de Amazon S3 para que se envíen a una cola de Amazon Simple Queue Service (SQS). Luego, los clientes pueden usar la cola de SQS como fuente para identificar cambios y pueden programar o ejecutar el rastreador de Glue con tablas del catálogo de datos de Glue como destino. Con cada ejecución del rastreador, se inspecciona la cola de SQS en busca de nuevos eventos. Si no se encuentran nuevos eventos, el rastreador se detiene. Si se encuentran eventos en la cola, el rastreador inspecciona sus carpetas respectivas, las procesa a través de clasificadores integrados (para CSV, JSON, AVRO, XML, etc.) y determina los cambios. Luego, el rastreador actualiza el catálogo de datos de Glue con nueva información, como particiones o columnas recién agregadas o eliminadas. Esta característica reduce el costo y el tiempo para rastrear datos de gran tamaño de Amazon S3 y que cambian con frecuencia.

Esta característica está disponible en todas las regiones comerciales donde está disponible AWS Glue; consulte la tabla de regiones de AWS. Para obtener más información, lea el blog y visite la documentación del rastreador de AWS Glue.