Veröffentlicht am: Jan 21, 2022
Wir freuen uns, Ihnen mitzuteilen, dass Amazon EMR 6.5.0 ab sofort Apache Iceberg Version 0.12 umfasst. Apache Iceberg ist ein Open-Source-Tabellenformat für große Datensätze in Amazon S3. Es bietet eine schnelle Abfrageleistung bei großen Tabellen, atomaren Commits, gleichzeitigen Schreibvorgängen und SQL-kompatiblen Tabellenentwicklungen. Mit der aktuellen Version können Sie Apache Spark 3.1.2 auf EMR-Clustern mit dem Iceberg-Tabellenformat verwenden.
Apache Iceberg bietet ein Open-Source-Tabellenformat für Daten, die in Data Lakes gespeichert sind. Dateningenieure können damit komplexe Herausforderungen meistern, wie die Verwaltung von Datensätzen, die sich stetig weiterentwickeln, und gleichzeitig die Abfrageleistung wahren. Iceberg ermöglicht Ihnen Folgendes:
- Wahrung der transaktionellen Konsistenz bei Tabellen zwischen mehreren Anwendungen, bei denen Dateien atomar hinzugefügt, entfernt oder geändert werden können mit vollständiger Leseisolation und mehreren gleichzeitigen Schreibvorgängen
- Implementierung einer vollständigen Schemaentwicklung zur Nachverfolgung von Änderungen in einer Tabelle über einen bestimmten Zeitraum hinweg
- Ausführung von Time-Travel-Abfragen zur Abfrage von Verlaufsdaten und zur Verifizierung von Änderungen zwischen Updates
- Organisation von Tabellen in flexible Partitionierungs-Layouts mit Partitionsentwicklung, damit Updates Schemen partitionieren können, wenn sich Abfragen und Datenvolumen ändern, ohne dabei auf physische Verzeichnisse zurückgreifen zu müssen
- Rollback von Tabellen auf vorherige Versionen, um Probleme umgehend zu beheben und Tabellen auf einen bekannten fehlerfreien Status zurückzusetzen
- Durchführung fortschrittlicher Planung und Filterung bei leistungsstarken Abfragen großer Datensätze
Version 6.5.0 von Amazon EMR mit Apache Iceberg ist ab sofort in den Regionen USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), Südamerika (São Paulo), Europa (Irland), Europa (Stockholm), AWS GovCloud (USA), Amazon Web Services China (Region Peking, betrieben von Sinnet), Amazon Web Services China (Region Ningxia, betrieben von NWCD) verfügbar. Weitere Regionen kommen in den kommenden Wochen hinzu.
Weitere Informationen zur Verwendung von Apache Iceberg mit Amazon EMR erhalten Sie in der Amazon-EMR-Dokumentation hier.