Publié le: Apr 24, 2023
Les AWS Glue Crawlers extraient le schéma de données et les partitions d'Amazon S3, et alimentent le catalogue de données AWS Glue en maintenant les métadonnées à jour. Aujourd'hui, les capacités d'AWS Glue Crawler sont étendues pour ajouter automatiquement des index de partition pour les tables récemment découvertes, ce qui aidera les services d'analyse tels qu'Amazon Athena et AWS Glue à optimiser le traitement des partitions afin d'améliorer les performances des requêtes sur des tables hautement partitionnées.
Le nombre de partitions dans une table donnée peut augmenter de manière significative au fil du temps. Lorsque des services d'analyse tels qu'Amazon Athena interrogent une table contenant des millions de partitions, le temps nécessaire pour récupérer la partition augmente, ce qui peut entraîner une augmentation du temps d'exécution des requêtes. Avec cette nouvelle version, lorsqu'AWS Glue Crawler crée une nouvelle table du catalogue de données AWS Glue, il crée également un index de partition par défaut sans avoir à le créer manuellement. Le catalogue de données AWS Glue créera ensuite un index rapide et consultable basé sur les clés d'index des partitions, réduisant ainsi le temps nécessaire pour récupérer et filtrer les métadonnées des partitions sur des tables contenant des millions de partitions. La création des index de partition profite aux charges de travail analytiques exécutées sur Amazon Athena, Amazon EMR, Amazon Redshift Spectrum et AWS Glue.
La prise en charge de la création d'index de partition par AWS Glue Crawler est généralement disponible dans toutes les régions commerciales où AWS Glue est disponible. Pour en savoir plus, consultez la documentation relative à AWS Glue Crawler.