Veröffentlicht am: Jul 16, 2021
Amazon Athena hat seine Integration mit Apache Hudi aktualisiert, um neue Funktionen und die neueste Community-Version 0.8.0 zu unterstützen. Hudi ist ein Open-Source-Datenmanagement-Framework zur Vereinfachung der inkrementellen Datenverarbeitung in S3 Data Lakes. Die aktualisierte Integration ermöglicht die Verwendung von Athena zur Abfrage von Hudi 0.8.0-Tabellen, die über Amazon EMR, Apache Spark, Apache Hive oder andere kompatible Dienste verwaltet werden, und enthält neue Unterstützung für Snapshot-Abfragen und das Lesen von Bootstrapped-Tabellen.
Apache Hudi bietet Datenverarbeitung auf Datensatzebene, die Ihnen helfen kann, die Entwicklung von Change Data Capture (CDC)-Pipelines zu vereinfachen, GDPR-gesteuerte Aktualisierungen und Löschungen einzuhalten und Streaming-Daten von Sensoren oder Geräten, die Dateneinfügungen und Ereignisaktualisierungen erfordern, besser zu verwalten. Die Version 0.8.0 macht es Ihnen noch einfacher, große Parquet-Tabellen nach Hudi zu migrieren, ohne Daten zu kopieren, damit Sie sie über Athena abfragen und analysieren können. Darüber hinaus können Sie mit der neuen Unterstützung von Athena für Snapshot-Abfragen jetzt nahezu in Echtzeit Einblicke in Ihre Streaming-Tabellenaktualisierungen erhalten.
Weitere Informationen über die Integration von Athena mit Hudi finden Sie unter Verwenden von Athena zum Abfragen von Apache Hudi-Datensätzen und in der Blogserie Abfragen eines Apache Hudi-Datensatzes mit Amazon Athena.