Veröffentlicht am: Jun 8, 2023
Amazon Athena für Apache Spark unterstützt jetzt Open-Source-Speicherframeworks für Data Lakes: Apache Hudi 0.13, Apache Iceberg 1.2.1 und Linux Foundation Delta Lake 2.0.2. Diese Frameworks vereinfachen die inkrementelle Datenverarbeitung großer Datensätze mithilfe von ACID (Atomizität, Konsistenz, Isolation, Beständigkeit)-Transaktionen und erleichtern die Speicherung und Verarbeitung großer Datenmengen in Ihren Data Lakes.
Amazon Athena für Apache Spark ist ein Feature von Amazon Athena, mit der Sie interaktive Analysen in Apache Spark in weniger als einer Sekunde ausführen können, um Petabyte an Daten zu analysieren. Da Data Lakes immer größer werden, kann es schwierig sein, Ihrem Data Lake inkrementelle Daten hinzuzufügen und Ihre Daten für alle Ihre Datennutzer transaktionell konsistent zu halten. Diese Data-Lake-Frameworks vereinfachen die inkrementelle Datenverarbeitung in S3 Data Lakes mithilfe von ACID-Transaktionen, Upserts und Löschungen, um transaktionskonsistente Dateien zu erstellen. Mit der heutigen Markteinführung können Dateningenieure nun mithilfe von Features wie der Schemaentwicklung Data-Lake-Tabellen effizient erstellen und verwalten. Mit der Schemaentwicklung können Sie Ihre Daten ganz einfach an geschäftliche Veränderungen anpassen, da sie eine Änderung der Datenstruktur Ihrer vorhandenen Datentabellen ermöglicht, ohne dass Sie Ihre vorhandenen Daten neu schreiben müssen, um sie an Ihre neue Struktur anzupassen.
Der Support für Apache Iceberg, Apache Hudi und Delta Lake ist in 9 AWS-Regionen verfügbar, in denen Amazon Athena für Apache Spark verfügbar ist: USA Ost (Ohio), USA Ost (Nord-Virginia), USA West (Oregon), Europa (Irland), Europa (Frankfurt), Asien-Pazifik (Tokio), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney) und Asien-Pazifik (Mumbai). Weitere Informationen und erste Schritte finden Sie auf der Webseite zu Amazon Athena für Apache Spark.