Veröffentlicht am: May 9, 2023

Sie können jetzt mit Amazon Athena Tabellen abfragen, die mit Apache Hudi 0.12.2 erstellt wurden. Dies beinhaltet Unterstützung für eine verbesserte Skalierbarkeit von Abfragen, die auf Datensätze im Data Lake von Amazon S3 zugreifen. Die aktualisierte Integration ermöglicht Ihnen, Athena zu verwenden, um Hudi 0.12.2-Tabellen abzufragen, die über Amazon EMR, Apache Spark, Apache Hive oder andere kompatible Services verwaltet werden.

Apache Hudi ist ein Open-Source-Datenmanagement-Framework zur Vereinfachung der inkrementellen Datenverarbeitung in S3-Data-Lakes. Hudi bietet Datenverarbeitung auf Datensatzebene, die Ihnen helfen kann, die Entwicklung von Change Data Capture (CDC)-Pipelines zu vereinfachen, DSGVO-gesteuerte Aktualisierungen und -Löschungen einzuhalten und Streaming-Daten von Sensoren oder Geräten, die Dateneinfügungen und Ereignisaktualisierungen erfordern, besser zu verwalten. Die Version 0.12.2 umfasst Unterstützung für Metadatentabellen, die darauf ausgelegt sind, den Vorgang zum Auflisten von Dateien überflüssig zu machen, um eine effiziente Skalierung über größere Datensätze besser zu unterstützen. Die Metadatentabelle verwaltet stattdessen proaktiv die Liste der Dateien und macht rekursive Dateiauflistungsoperationen überflüssig, um zu vermeiden, dass bei Speichersystemen wie Amazon S3 Anforderungslimits auftreten.

Die Unterstützung von Apache Hudi 0.12.2 ist in der Athena-Engine Version 3 und in den unterstützten Regionen verfügbar. Weitere Informationen über die neue Unterstützung von Apache Hudi 0.12.2 in Athena finden Sie unter dem Thema zum Abfragen von Hudi-Datensätzen in der Athena-Benutzerdokumentation.