Publié le: Jul 21, 2023

AWS Glue Crawlers prend désormais en charge les tables Apache Hudi, ce qui permet aux clients d'interroger des données dans des tables Apache Hudi directement à partir de services d'analyse AWS tels qu'Amazon Athena. Apache Hudi est un format de table open source qui apporte des fonctionnalités de base de données et d'entrepôt de données au lac de données. Apache Hudi aide les ingénieurs de données à gérer des ensembles de données en constante évolution tout en préservant les performances des requêtes. 

Pour interroger les données des tables Apache Hudi, les utilisateurs d'Amazon Athena devaient auparavant créer manuellement une table dans le catalogue de données Glue et mettre à jour les modifications de partition pour s'assurer que les résultats de la requête étaient à jour. Avec le lancement d'aujourd'hui, les utilisateurs peuvent enregistrer automatiquement les tables Apache Hudi dans le catalogue Glue en exécutant le Glue Crawler. Glue Crawler prend en charge les tables Hudi Copy on Write (CoW) et Merge on Read (MoR) partitionnées et non partitionnées. Les utilisateurs peuvent ensuite interroger les tables Hudi du catalogue Glue sur divers services d'analyse et appliquer des autorisations détaillées à Lake Formation. Avec Glue Crawlers, les utilisateurs peuvent également migrer les données d'autres catalogues Hudi vers le catalogue Glue. 

Pour commencer, les utilisateurs devront créer, exécuter ou planifier un Glue Crawler et fournir un ou plusieurs chemins Amazon S3 vers les tables Hudi. À chaque exécution, Glue Crawler extrait le schéma et les informations de partition et met à jour le catalogue Glue avec le schéma, les modifications de partition et l'emplacement le plus récent du fichier de métadonnées Hudi.

La prise en charge des tables Hudi par AWS Glue Crawlers est disponible dans toutes les régions commerciales où AWS Glue est disponible (voir le tableau des régions AWS). Pour en savoir plus, consultez la documentation relative à AWS Glue Crawler.