Publié le: Jul 7, 2023
Les crawlers AWS Glue prennent désormais en charge les tables Apache Iceberg, ce qui simplifie l'adoption d'AWS Glue Data Catalog en tant que catalogue pour les tables Iceberg et la migration depuis d'autres catalogues Iceberg. Apache Iceberg est un format de table open source pour des données stockées dans des lacs de données permettant aux ingénieurs de données de faire face à des défis complexes tels que la gestion de jeux de données en perpétuelle évolution, tout en maintenant le niveau de performance des requêtes. Avec le lancement d'aujourd'hui, vous pouvez enregistrer automatiquement les tables Iceberg dans Glue Catalog en exécutant le crawler Glue. Vous pouvez ensuite interroger les tables Iceberg du catalogue Glue sur différents moteurs d'analyse et appliquer des autorisations détaillées à Lake Formation lorsque vous interrogez depuis Amazon Athena.
Lorsque vous migrez depuis d'autres catalogues Iceberg, vous pouvez créer et planifier un crawler Glue et fournir un ou plusieurs chemins Amazon S3 où se trouvent les tables Iceberg. Vous avez la possibilité de fournir la profondeur maximale des tracés S3 que le crawler Glue peut parcourir. À chaque exécution, le crawler Glue extrait les informations du schéma et met à jour le catalogue Glue avec les modifications apportées au schéma. Le crawler Glue prend en charge la fusion de schémas entre les instantanés et met à jour l'emplacement du dernier fichier de métadonnées dans le catalogue Glue, que les moteurs d'analyse AWS peuvent utiliser directement.
La prise en charge des tables Icebergs par les crawlers AWS Glue est disponible dans toutes les régions commerciales où AWS Glue est disponible (voir le tableau des régions AWS). Pour en savoir plus, consultez la documentation relative à AWS Glue Crawler.