Publicado en: Nov 17, 2023

El catálogo de datos de AWS Glue ahora permite generar estadísticas a nivel de columna para las tablas de AWS Glue. Estas estadísticas ahora están integradas con el optimizador basado en costos (CBO) de Amazon Athena y Amazon Redshift Spectrum, lo que mejora el rendimiento de las consultas y permite ahorrar costos.

Con este lanzamiento, los clientes ahora tienen una experiencia integrada completa en la que las estadísticas de las tablas de Glue se recopilan y almacenan en el catálogo de Glue, y se ponen a disposición de los servicios de análisis para mejorar la planificación y ejecución de las consultas. Estas estadísticas son a nivel de columnas, como la cantidad de elementos distintos, la cantidad de valores nulos, el máximo y el mínimo en archivos como Parquet, ORC, JSON, ION, CSV o XML. Con las estadísticas, los servicios de análisis como Amazon Athena y Amazon Redshift pueden optimizar las consultas mediante la aplicación de los filtros más restrictivos lo antes posible en el procesamiento de las consultas. Esto limita el uso de la memoria y la cantidad de registros leídos para proporcionar los resultados de la consulta.

Para empezar, los usuarios pueden generar y ver las estadísticas de la tabla del catálogo de AWS Glue mediante la consola o las API de AWS Glue. A medida que los clientes realizan consultas desde Amazon Athena y Amazon Redshift Spectrum, obtendrán automáticamente las mejoras en el rendimiento de las consultas gracias a la integración incorporada en el catálogo de AWS Glue.

El soporte para generar estadísticas del catálogo de AWS Glue está disponible de forma general en las siguientes regiones de AWS: Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Oregón), Europa (Irlanda) y Asia Pacífico (Tokio, Osaka). Lea la entrada del blog de Athena y visite la documentación del catálogo de AWS Glue para obtener más información.