Veröffentlicht am: Jul 21, 2023

AWS-Glue-Crawlers unterstützen jetzt Apache-Hudi-Tabellen. So können Kunden Daten in Apache-Hudi-Tabellen direkt von AWS-Analyseservices wie Amazon Athena aus abfragen. Apache-Hudi ist ein Open-Source-Tabellenformat, das Datenbank- und Data-Warehouse-Funktionen für den Data Lake bereitstellt. Apache-Hudi unterstützt Dateningenieure bei der Verwaltung sich ständig weiterentwickelnder Datensätze bei gleichzeitiger Aufrechterhaltung der Abfrageleistung. 

Für die Abfrage von Daten aus Apache-Hudi-Tabellen mussten Benutzer von Amazon Athena bisher manuell eine Tabelle im Glue-Datenkatalog erstellen und Partitionsänderungen aktualisieren, damit die Abfrageergebnisse aktuell waren. Mit der heutigen Einführung können Benutzer durch Ausführen des Glue-Crawlers automatisch Apache-Hudi-Tabellen im Glue-Katalog registrieren. Glue-Crawler unterstützt partitionierte und nicht-partitionierte „Copy on write“ (CoW)- und „Merge on read“ (MoR)-Hudi-Tabellen. Benutzer können dann die Hudi-Tabellen des Glue-Katalogs über verschiedene Analysedienste hinweg abfragen und fein abgestufte Berechtigungen für Lake Formation anwenden. Mit Glue-Crawlers können Benutzer auch Daten aus anderen Hudi-Katalogen in den Glue-Katalog migrieren. 

Für den Einstieg müssen die Benutzer einen Glue-Crawler erstellen, ausführen oder planen und einen oder mehrere Amazon-S3-Pfade zu Hudi-Tabellen bereitstellen. Bei jedem Durchlauf extrahiert Glue-Crawler Schema und Partitionsinformationen und aktualisiert den Glue-Katalog mit dem Schema, den Partitionsänderungen und dem neuesten Dateispeicherort der Hudi-Metadaten.

Die Unterstützung von AWS-Glue-Crawler für Hudi-Tabellen ist in allen kommerziellen Regionen verfügbar, in denen AWS Glue angeboten wird. Weitere Informationen finden Sie in der AWS-Regionentabelle. Weitere Informationen finden Sie in der Dokumentation zu AWS-Glue-Crawler.