Der AWS Glue-Datenkatalog bietet erweiterte automatische Optimierung für Apache Iceberg-Tabellen
Der AWS Glue-Datenkatalog bietet jetzt eine erweiterte automatische Optimierung für Apache Iceberg-Tabellen. Dieses Update unterstützt die Komprimierung gelöschter Dateien, verschachtelte Datentypen, partielle Fortschrittsübertragungen und die Unterstützung der Partitionsentwicklung, wodurch es einfacher wird, transaktionale Data Lakes mit konsistent hoher Performance zu verwalten. Diese Features lösen die Herausforderungen, mit denen Kunden konfrontiert sind, wenn Streaming-Daten kontinuierlich in Apache Iceberg-Tabellen aufgenommen werden, was zu einer großen Anzahl von Löschdateien führt, die Änderungen in Datendateien verfolgen.
Mit dieser neuen Funktion überwacht der Glue-Datenkatalog ständig Tabellenpartitionen auf Positions- und Gleichheitslöschdateien, leitet den Komprimierungsprozess ein und schreibt regelmäßig einen Teil des Fortschritts fest, um Konflikte zu reduzieren. Glue Catalog-Optimierer unterstützen jetzt die Schemaentwicklung, wenn Sie Spalten neu anordnen oder umbenennen, sowie die Entwicklung der Partitionsspezifikationen. Darüber hinaus hat Glue Catalog die Unterstützung für stark verschachtelte komplexe Daten und die Unterstützung für Parquet-Komprimierungscodecs erweitert: zstd, brotli, lz4, gzip, snappy. Die Aktivierung der automatischen Komprimierung reduziert den Aufwand für das Löschen von Dateien und Metadaten in Ihren Iceberg-Tabellen und verbessert die Abfrageleistung. Diese neuen Features werden automatisch auf bestehende und neue Glue Catalog-Optimierer angewendet.
Zusätzlich zur AWS-Konsole können Kunden auch das AWS CLI oder die AWS SDKs verwenden, um die Optimierung für Apache Iceberg-Tabellen zu automatisieren. Das Feature ist in 14 AWS-Regionen verfügbar: USA Ost (Nord-Virginia, Ohio), USA West (Oregon), Europa (Irland, London, Frankfurt, Stockholm), Kanada (Zentral), Asien-Pazifik (Tokio, Seoul, Mumbai, Singapur, Sydney), Südamerika (São Paulo). Weitere Informationen finden Sie im Blog sowie in der Dokumentation zu AWS-Glue-Datenkatalog.