El catálogo de datos de AWS Glue ahora automatiza la generación de estadísticas para tablas nuevas

Publicado en: 3 de dic de 2024

AWS Glue Data Catalog ahora automatiza la generación de estadísticas para tablas nuevas. Estas estadísticas se integran con el optimizador basado en costos (CBO) de Amazon Redshift y Amazon Athena, lo que mejora el rendimiento de las consultas y permite ahorrar costos.

Un motor de consultas, como Amazon Redshift y Amazon Athena, utiliza las estadísticas de tablas para determinar la forma más eficaz de ejecutar una consulta. Antes, la creación de estadísticas para las tablas de Apache Iceberg en el catálogo de datos de AWS Glue requería supervisar y actualizar continuamente las configuraciones de las tablas. Ahora, el catálogo de datos de AWS Glue Data le permite generar estadísticas automáticamente para tablas nuevas con una configuración de catálogo única. Para empezar, seleccione el catálogo predeterminado en la consola de Lake Formation y habilite las estadísticas de la tabla en la pestaña de configuración de optimización de tablas. A medida que se crean tablas nuevas o se actualizan las tablas existentes, las estadísticas se generan utilizando una muestra de filas para todas las columnas y se actualizarán periódicamente. Para las tablas de Apache Iceberg, estas estadísticas incluyen la cantidad de valores distintos (NDVs). Para otros formatos de archivo como Parquet, se recopilan estadísticas adicionales, como la cantidad de valores nulos, los valores máximos y mínimos y la longitud promedio. Amazon Redshift y Amazon Athena utilizan las estadísticas actualizadas para optimizar las consultas mediante mejoras como el orden de unión óptimo o el desplazamiento de agregación basado en costos. La consola del catálogo de Glue le proporciona visibilidad de las estadísticas actualizadas y las ejecuciones de generación de estadísticas.

El soporte para la automatización de estadísticas del catálogo de AWS Glue está disponible de forma general en las siguientes regiones de AWS: Este de EE. UU. (Norte de Virginia, Ohio), Oeste de EE. UU. (Norte de California, Oregón), Europa (Irlanda) y Asia Pacífico (Tokio). Lea la publicación en el blogy consulte la documentación del catálogo de AWS Glue para obtener más información.