El Catálogo de datos de AWS Glue ahora admite la generación programada de estadísticas en columnas de tablas

Publicado en: 13 de nov de 2024

El Catálogo de datos de AWS Glue ahora admite la generación programada de estadísticas en columnas de tablas de Apache Iceberg y formatos de archivo como Parquet, JSON, CSV, XML, ORC e ION. Con este lanzamiento, puede crear una programación recurrente en el Catálogo de datos de Glue para simplificar y automatizar la generación de estadísticas. Estas estadísticas se integran con el optimizador basado en costos (CBO) de Amazon Redshift Spectrum y Amazon Athena, lo que mejora el rendimiento de las consultas y permite ahorrar costos.

Anteriormente, para configurar la programación recurrente de generación de estadísticas, tenía que llamar a los servicios de AWS usando una combinación de AWS Lambda y el Programador de Amazon EventBridge. Con esta nueva característica, ahora puede hacer una programación recurrente como una configuración adicional para el Catálogo de datos de Glue junto con el porcentaje de muestreo. Para cada ejecución programada, se recopilan la cantidad de valores distintos (NDV) para las tablas de Apache Iceberg y estadísticas adicionales, como la cantidad de valores nulos, la longitud máxima, mínima y promedio para otros formatos de archivo. A medida que se actualizan las estadísticas, Amazon Redshift y Amazon Athena las utilizan para optimizar las consultas mediante mejoras como el orden de unión óptimo o el desplazamiento de agregación basado en costos. Puede ver el estado y el momento de cada ejecución de generación de estadísticas, así como los valores actualizados de las estadísticas.

Para empezar, puede programar la generación de estadísticas mediante las API o la consola del Catálogo de datos de AWS Glue. La compatibilidad con la generación programada de estadísticas del Catálogo de AWS Glue está disponible de forma general en todas las regiones en las que está disponible el programador de Amazon EventBridge. Consulte la documentación del Catálogo de AWS Glue para obtener más información.