Le catalogue de données AWS Glue permet désormais de générer des statistiques pour les tables Apache Iceberg

Publié le: 9 juil. 2024

Le catalogue de données AWS Glue prend désormais en charge la génération de statistiques agrégées au niveau des colonnes pour les tables Apache Iceberg. Ces statistiques sont désormais intégrées à l'optimiseur basé sur les coûts (CBO) d'Amazon Redshift Spectrum, ce qui permet d'améliorer les performances des requêtes et de réaliser des économies potentielles.

Apache Iceberg prend en charge les statistiques telles que null, min, max, mais ne prend pas en charge la génération de statistiques d'agrégation telles que le nombre de valeurs distinctes (NDV). Avec ce lancement, vous disposez désormais d'une expérience intégrée de bout en bout dans laquelle les NDV sont collectés sur des colonnes de la table Apache Iceberg et stockés dans des fichiers Apache Iceberg Puffin. Amazon Redshift utilise ces statistiques agrégées pour optimiser les requêtes en appliquant les filtres les plus restrictifs dès que possible dans le traitement des requêtes, ce qui limite l'utilisation de la mémoire et le nombre d'enregistrements lus pour fournir les résultats des requêtes.

Pour commencer, vous pouvez générer des statistiques pour une table Apache Iceberg à l'aide de la console AWS Glue ou des API AWS Glue. À chaque exécution, le catalogue Glue calcule les statistiques de l'instantané actuel de la table Iceberg, les stocke dans un fichier Iceberg Puffin et dans un catalogue Glue. Lorsque vous exécutez des requêtes depuis Amazon Redshift Spectrum, vous bénéficiez automatiquement des améliorations des performances des requêtes grâce à l'intégration intégrée à Apache Iceberg.

La prise en charge de la génération de statistiques du catalogue AWS Glue est généralement disponible dans les régions AWS suivantes : USA Est (Ohio), USA Ouest (Californie du Nord), Europe (Francfort), Asie-Pacifique (Mumbai). Lisez l'article de blog et consultez la documentation du catalogue AWS Glue pour en savoir plus.