Publié le: Nov 17, 2023

Le catalogue de données AWS Glue permet désormais de générer des statistiques au niveau des colonnes pour les tables AWS Glue. Ces statistiques sont maintenant intégrées à l'optimiseur basé sur les coûts (CBO) à partir d'Amazon Athena et d'Amazon Redshift Spectrum, ce qui permet d'améliorer les performances des requêtes et de réaliser des économies.

Grâce à ce lancement, nos clients bénéficient désormais d'une expérience intégrée de bout en bout : les statistiques sur les tables Glue sont collectées et stockées dans le catalogue Glue, puis mises à la disposition des services d'analyse pour améliorer la planification et l'exécution des requêtes. Il s'agit de statistiques au niveau des colonnes, par exemple le nombre de valeurs distinctes ou nulles ainsi que le maximum et le minimum sur des fichiers Parquet, ORC, JSON, ION, CSV ou encore XML. À l'aide de ces statistiques, des services d'analyse tels qu'Amazon Athena et Amazon Redshift peuvent optimiser les requêtes en appliquant les filtres les plus restrictifs dès que possible dans le traitement des requêtes, ce qui limite l'utilisation de la mémoire et le nombre d'enregistrements lus pour fournir les résultats des requêtes.

Pour commencer, les utilisateurs peuvent générer des statistiques et visualiser celles du tableau du catalogue AWS Glue à l'aide de la console AWS Glue ou des API AWS Glue. Grâce à l'intégration intégrée au catalogue AWS Glue, nos clients bénéficient automatiquement de l'amélioration des performances des requêtes à mesure qu'ils en exécutent dans Amazon Athena et Amazon Redshift Spectrum.

La prise en charge de la génération de statistiques du catalogue AWS Glue est en disponibilité générale dans les régions AWS Asie-Pacifique (Osaka), Asie-Pacifique (Tokyo), Europe (Irlande), USA Est (Ohio), USA Est (Virginie du Nord) et USA Ouest (Oregon). Lisez l'article de blog Athena et consultez la documentation du catalogue AWS Glue pour en savoir plus.