Veröffentlicht am: Jul 7, 2023

AWS Glue Crawlers unterstützt jetzt Apache Iceberg-Tabellen, was die Einführung von AWS Glue Data Catalog als Katalog für Iceberg-Tabellen und die Migration von anderen Iceberg-Katalogen vereinfacht. Apache Iceberg ist ein Open-Source-Tabellenformat für in Data Lakes gespeicherte Daten, das Dateningenieuren hilft, komplexe Herausforderungen zu bewältigen, z. B. die Verwaltung sich ständig weiterentwickelnder Datensätze bei gleichzeitiger Aufrechterhaltung der Abfrageleistung. Mit der heutigen Markteinführung können Sie Iceberg-Tabellen automatisch in Glue Catalog registrieren, indem Sie den Glue Crawler ausführen. Anschließend können Sie Glue Catalog Iceberg-Tabellen über verschiedene Analyse-Engines hinweg abfragen und detaillierte Lake Formation-Berechtigungen anwenden, wenn Sie Abfragen von Amazon Athena aus durchführen.

Bei der Migration von anderen Iceberg-Katalogen können Sie einen Glue-Crawler erstellen und planen und einen oder mehrere Amazon S3-Pfade angeben, in denen sich die Iceberg-Tabellen befinden. Sie haben die Möglichkeit, die maximale Tiefe der S3-Pfade anzugeben, die der Glue Crawler durchqueren kann. Bei jedem Lauf extrahiert Glue Crawler Schemainformationen und aktualisiert Glue Catalog mit den Schemaänderungen. Glue Crawler unterstützt das Zusammenführen von Schemas über Snapshots hinweg und aktualisiert den neuesten Speicherort der Metadatendatei im Glue-Katalog, den AWS-Analyse-Engines direkt verwenden können.

Die AWS-Glue-Crawler-Unterstützung für native Delta-Lake-Tabellen ist in allen kommerziellen Regionen verfügbar, in denen AWS Glue angeboten wird. Weitere Informationen finden Sie in der AWS-Regionentabelle. Weitere Informationen finden Sie in der Dokumentation zu AWS Glue Crawler.