Veröffentlicht am: Dec 19, 2022
AWS-Glue-Crawler bieten jetzt eine erweiterte Unterstützung für Delta-Lake-Tabellen der Linux Foundation, wodurch die betriebliche Effizienz erhöht wird, um aussagekräftige Erkenntnisse aus Analysediensten wie Amazon Athena, Amazon EMR und AWS Glue zu gewinnen. Diese Funktion ermöglicht es Analysediensten, Delta-Lake-Tabellen zu scannen, ohne dass Manifestdateien durch Glue-Crawler erstellt werden müssen. Neu katalogisierte Daten stehen jetzt schnell zur Analyse mit Ihren bevorzugten Analyse- und Machine Learning (ML)-Tools bereit.
Bisher unterstützten Glue-Crawler Delta-Lake-Tabellen, indem sie in Amazon S3 Manifestdateien erstellten, die von verschiedenen Analysediensten genutzt werden konnten. Glue-Crawler mussten in regelmäßigen Abständen Manifestdateien generieren, um neuere Transaktionen in die ursprünglichen Delta-Lake-Tabellen aufzunehmen, was zu längeren Verarbeitungszeiten führte.
Mit der heutigen Einführung können Sie einen Glue-Crawler mit der Option erstellen und planen, native Delta-Lake-Tabellen zu erstellen und dann einen Pfad zu Amazon S3 bereitzustellen, wo sich die Delta-Lake-Tabellen befinden. Bei jedem Crawler-Lauf überprüft und katalogisiert der Crawler Schema- und Partitionsinformationen wie Aktualisierungen oder Löschungen in Delta-Lake-Tabellen im Glue-Datenkatalog.
Die AWS-Glue-Crawler-Unterstützung für native Delta-Lake-Tabellen ist in allen kommerziellen Regionen verfügbar, in denen AWS Glue angeboten wird. Weitere Informationen finden Sie in der AWS-Regionentabelle. Die erweiterte Delta-Lake-Unterstützung ist in der Athena-Engine-Version 3.0 und der Glue-Version 3.0 oder höher verfügbar. Weitere Informationen erhalten Sie im Blog sowie in der Dokumentation zu AWS-Glue-Crawlern.