AWS Glue Data Catalog prend désormais en charge la génération planifiée de statistiques au niveau des colonnes
AWS Glue Data Catalog prend désormais en charge la génération planifiée de statistiques au niveau des colonnes pour les tables Apache Iceberg et les formats de fichiers tels que Parquet, JSON, CSV, XML, ORC et ION. Avec ce lancement, vous pouvez simplifier et automatiser la génération de statistiques en créant un calendrier récurrent dans le catalogue de données Glue. Ces statistiques sont intégrées à l'optimiseur basé sur les coûts (CBO) d'Amazon Redshift Spectrum et d'Amazon Athena, ce qui permet d'améliorer les performances des requêtes et de réaliser des économies potentielles.
Auparavant, pour configurer un calendrier de génération de statistiques récurrentes, vous deviez appeler les services AWS à l'aide d'une combinaison d'AWS Lambda et d'Amazon EventBridge Scheduler. Grâce à cette nouvelle fonctionnalité, vous pouvez désormais fournir le calendrier récurrent en tant que configuration supplémentaire à Glue Data Catalog, ainsi qu'un pourcentage d'échantillonnage. Pour chaque exécution planifiée, le nombre de valeurs distinctes (NDV) est collecté pour les tables Apache Iceberg, et des statistiques supplémentaires telles que le nombre de valeurs nulles ou encore les longueurs maximale, minimale et moyenne sont collectées pour les autres formats de fichiers. Au fur et à mesure que les statistiques sont mises à jour, Amazon Redshift et Amazon Athena les utilisent pour optimiser les requêtes, en utilisant des optimisations telles que l'ordre de jointure optimal ou la fonction d'agrégation basée sur les coûts. Vous avez une visibilité sur l'état et le calendrier de chaque génération de statistiques, ainsi que sur les valeurs statistiques mises à jour.
Pour commencer, vous pouvez planifier la génération de statistiques à l'aide de la console AWS Glue Data Catalog ou des API AWS Glue. La prise en charge de la génération planifiée de statistiques d’AWS Glue Catalog est généralement disponible dans toutes les régions où Amazon EventBridge Scheduler est disponible. Consultez la documentation relative à AWS Glue Catalog pour en savoir plus.