Publicado en: Oct 15, 2021
AWS Glue incorpora rastreadores, una capacidad que simplifica el descubrimiento de conjuntos de datos mediante el escaneo de datos en Amazon S3 y bases de datos relacionales, extrayendo su esquema y rellenando automáticamente el catálogo de datos de AWS Glue, que mantiene los metadatos actualizados. Esto reduce el tiempo de obtención de información al hacer que los datos recién capturados estén rápidamente disponibles para el análisis con sus herramientas favoritas de análisis y machine learning.
Al configurar el rastreador de AWS Glue para buscar datos en Amazon S3, puede elegir entre una exploración completa, en la que se procesan todos los objetos de una ruta determinada cada vez que se ejecuta el rastreador, o una exploración progresiva, en la que solo se procesan los objetos incluidos en una carpeta que se acaba de agregar. La exploración completa es útil cuando los cambios en la tabla no son determinantes y pueden afectar a cualquier objeto o partición. El rastreo progresivo es útil cuando se agregan nuevas particiones, o carpetas, a la tabla. En el caso de tablas de gran tamaño que cambian con frecuencia, el modo de rastreo progresivo se puede mejorar para reducir el tiempo que el rastreador tarda en determinar qué objetos han cambiado.
Hoy lanzamos la compatibilidad con las notificaciones de eventos de Amazon S3 como fuente para que los rastreadores de AWS Glue actualicen de forma incremental las tablas del catálogo de datos de AWS Glue. Los clientes podrán configurar las notificaciones de eventos de Amazon S3 para que se envíen a Amazon Simple Queue Service (SQS) ,que el rastreador utilizará para identificar los objetos agregados o eliminados recientemente. Con cada ejecución del rastreador, se inspecciona la cola SQS en busca de nuevos eventos, si no se encuentra ninguno, el rastreador se detiene. Si se encuentran eventos en la cola, el rastreador inspeccionará sus respectivas carpetas y procesará los nuevos objetos. Este nuevo sistema reduce el costo y el tiempo que necesita un rastreador para actualizar tablas de gran tamaño y que cambian con frecuencia.
La compatibilidad del rastreador de AWS Glue con las notificaciones de eventos de Amazon S3 está disponible en todas las regiones en las que AWS Glue está disponible. Consulte la tabla de regiones de AWS. Para obtener más información, visite la documentación de rastreador de AWS Glue.