Publicado en: Apr 24, 2023

Los rastreadores de AWS Glue extraen el esquema de datos y las particiones de Amazon S3 y completan el catálogo de datos de AWS Glue para mantener los metadatos actualizados. En la actualidad, la compatibilidad con el rastreador de AWS Glue se ha ampliado para agregar automáticamente índices de particiones a las tablas recién descubiertas. Esto ayudará a los servicios de análisis, como Amazon Athena y AWS Glue, a optimizar el procesamiento de particiones a fin de mejorar el rendimiento de las consultas en tablas con muchas particiones. 

La cantidad de particiones de una tabla determinada puede aumentar considerablemente con el tiempo. A medida que los servicios de análisis como Amazon Athena consultan una tabla que contiene millones de particiones, el tiempo necesario para recuperar la partición aumenta y con él, aumenta el tiempo de ejecución de las consultas. Con esta versión, cuando el rastreador de AWS Glue crea una nueva tabla del catálogo de datos de AWS Glue, también creará un índice de particiones de forma predeterminada sin necesidad de crearlo manualmente. Luego, el catálogo de datos de AWS Glue creará un índice rápido y con capacidad de búsqueda basado en las claves del índice de particiones. Esto reducirá el tiempo necesario para recuperar y filtrar los metadatos de las particiones en tablas con millones de particiones. La creación de índices de particiones beneficia a las cargas de trabajo de análisis que se ejecutan en Amazon Athena, Amazon EMR, Amazon Redshift Spectrum y AWS Glue.

La compatibilidad del rastreador de AWS Glue para crear índices de particiones suele estar disponible en todas las regiones comerciales en las que AWS Glue está disponible. Consulte la documentación del rastreador de AWS Glue para obtener más información.