El catálogo de datos de AWS Glue ahora permite generar estadísticas para las tablas de Apache Iceberg

Publicado en: 9 de jul de 2024

El catálogo de datos de AWS Glue ahora permite generar estadísticas agregadas a nivel de columna para las tablas de Apache Iceberg. Estas estadísticas ahora están integradas con el optimizador basado en costos (CBO) de Amazon Redshift Spectrum, lo que mejora el rendimiento de las consultas y permite ahorrar costos.

Apache Iceberg admite estadísticas como valores nulos, mínimos y máximos, pero carece de soporte para generar estadísticas de agregación, como el número de valores distintos (NDV). Con este lanzamiento, ahora tiene una experiencia integrada de extremo a extremo en la que los NDV se recopilan en columnas de la tabla Apache Iceberg y se almacenan en archivos de Apache Iceberg Puffin. Amazon Redshift utiliza estas estadísticas de agregación para optimizar las consultas mediante la aplicación de los filtros más restrictivos lo antes posible en el procesamiento de las consultas. Esto limita el uso de la memoria y la cantidad de registros leídos para proporcionar los resultados de la consulta.

Para empezar, puede generar estadísticas para una tabla de Apache Iceberg mediante la consola o las API de AWS Glue. Con cada ejecución, el catálogo de Glue calculará las estadísticas de la instantánea actual de la tabla Iceberg y las almacenará en un archivo puffin de Iceberg y en el catálogo de Glue. A medida que realice consultas desde Amazon Redshift Spectrum, obtendrá automáticamente las mejoras en el rendimiento de las consultas gracias a la integración incorporada en Apache Iceberg.

La compatibilidad para generar estadísticas del catálogo de AWS Glue está disponible de forma general en las siguientes regiones de AWS: Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Europa (Fráncfort) y Asia Pacífico (Bombay). Lea la publicación en el blogy consulte la documentación del catálogo de AWS Glue para obtener más información.