Le catalogue de données AWS Glue automatise désormais la génération de statistiques pour les nouveaux tableaux

Publié le: 3 déc. 2024

Le catalogue de données AWS Glue automatise désormais la génération de statistiques pour les nouveaux tableaux. Ces statistiques sont intégrées à l'optimiseur basé sur les coûts (CBO) d'Amazon Redshift Spectrum et d'Amazon Athena, ce qui permet d'améliorer les performances des requêtes et de réaliser des économies potentielles.

Les statistiques des tableaux sont utilisées par un moteur de requête, tel qu'Amazon Redshift et Amazon Athena, pour déterminer la manière la plus efficace d'exécuter une requête. Auparavant, la création de statistiques pour les tableaux Apache Iceberg dans le catalogue de données AWS Glue vous obligeait à surveiller et à mettre à jour en permanence les configurations de vos tableaux. Désormais, le catalogue de données AWS Glue vous permet de générer automatiquement des statistiques pour les nouveaux tableaux avec une configuration de catalogue unique. Vous pouvez commencer en sélectionnant le catalogue par défaut dans la console Lake Formation et en activant les statistiques des tableaux dans l'onglet de configuration de l'optimisation des tableaux. À mesure que de nouveaux tableaux sont créés ou que des tableaux existants sont mis à jour, les statistiques sont générées à l'aide d'un échantillon de lignes pour toutes les colonnes et sont actualisées périodiquement. Pour les tableaux Apache Iceberg, ces statistiques incluent le nombre de valeurs distinctes (NDV). Pour les autres formats de fichiers tels que Parquet, des statistiques supplémentaires sont collectées, telles que le nombre de valeurs nulles, les valeurs maximales et minimales et la longueur moyenne. Amazon Redshift et Amazon Athena utilisent les statistiques à jour pour optimiser les requêtes, en utilisant des optimisations telles que l'ordre de jointure optimal ou la fonction d'agrégation basée sur les coûts. La console Glue Catalog vous permet de visualiser les statistiques mises à jour et les cycles de génération de statistiques.

La prise en charge de l’automatisation des statistiques pour AWS Glue Catalog est en disponibilité générale dans les régions AWS USA Est (Virginie du Nord, Ohio), USA Ouest (Californie du Nord, Oregon), Europe (Irlande), Asie-Pacifique (Tokyo). Consultez l'article de blog et la documentation relative à AWS Glue Catalog pour en savoir plus.

Sélectionner vos préférences de cookies

Le catalogue de données AWS Glue automatise désormais la génération de statistiques pour les nouveaux tableaux

Fin de la prise en charge d'Internet Explorer