Publicado en: Nov 20, 2023

Amazon Redshift ahora puede aprovechar las estadísticas a nivel de columna almacenadas en el catálogo de datos de AWS Glue para mejorar el rendimiento de las consultas en los lagos de datos mediante la generación de planes de consultas optimizados. 

AWS Glue admite estadísticas a nivel de columna en el catálogo de datos de AWS Glue, lo que permite a los clientes almacenar información estadística como los valores mínimos y máximos y la cantidad de valores distintos para cada columna. Amazon Redshift ahora recupera automáticamente esta información de AWS Glue y, a continuación, optimiza los planes de consultas mediante estadísticas y proporciona mejoras de rendimiento para las consultas de sus lagos de datos. Con la capacidad recientemente introducida de AWS Glue para generar estadísticas a nivel de columna, puede recopilar automáticamente información estadística de las tablas de su lago de datos y actualizar las estadísticas a nivel de columna en lugar de rellenar esta información manualmente.

Para empezar, puede utilizar la consola de AWS Glue o las API de AWS Glue para generar estadísticas de columnas para las tablas de sus lagos de datos y, a continuación, ejecutar consultas en estas tablas en Redshift mediante esquemas externos o catálogos de Glue montados automáticamente. 

Las optimizaciones del plan de consultas del lago de datos de Amazon Redshift mediante estadísticas a nivel de columna de AWS Glue están disponibles en forma general en todas las regiones de AWS en las que se ofrecen Amazon Redshift Spectrum o Amazon Redshift sin servidor. Para obtener más información, visite la guía para desarrolladores de bases de datos de Amazon Redshift y la documentación de AWS Glue.