Publié le: Nov 20, 2023

Amazon Redshift peut désormais exploiter les statistiques au niveau des colonnes stockées dans le catalogue de données AWS Glue pour améliorer les performances de requêtage des lacs de données en générant des plans de requêtes optimisés. 

AWS Glue prend en charge les statistiques au niveau des colonnes du catalogue de données AWS Glue, ce qui permet à nos clients de stocker des informations telles que les valeurs minimales et maximales ou le nombre de valeurs distinctes de chaque colonne. Désormais, Amazon Redshift extrait automatiquement ces données d'AWS Glue, puis s'en sert pour optimiser les plans de requêtes et améliorer les performances de requêtage du lac de données. Grâce à la récente fonctionnalité d'AWS Glue permettant de générer des statistiques au niveau des colonnes, vous pouvez collecter automatiquement des informations à partir des tables de votre lac de données et les mettre à jour au lieu de les renseigner manuellement.

Pour commencer, utilisez la console AWS Glue ou les API AWS Glue pour générer des statistiques sur les colonnes des tables de votre lac de données. Exécutez ensuite des requêtes sur ces tables dans Redshift à l'aide du catalogue Glue prémonté ou de schémas externes. 

Les optimisations du plan de requêtes des lacs de données Amazon Redshift à l'aide des statistiques au niveau des colonnes d'AWS Glue sont en disponibilité générale dans toutes les régions AWS où Amazon Redshift Spectrum ou Amazon Redshift sans serveur sont proposés. Pour en savoir plus, consultez le guide de développement des bases de données Amazon Redshift et la documentation d'AWS Glue.