AWS-Glue-Datenkatalog unterstützt jetzt die Speicheroptimierung von Apache Iceberg-Tabellen
AWS-Glue-Datenkatalog unterstützt jetzt die Speicheroptimierung von Apache Iceberg-Tabellen, durch das automatische Entfernen von Datendateien, die nicht mehr benötigt werden. Bei jedem Schreibzugriff auf eine Iceberg-Tabelle wird ein neuer Snapshot oder eine neue Version einer Tabelle erstellt. Fehlern beim Schreiben in Iceberg-Tabellen führen darüber hinaus zu Datendateien, die nicht in Snapshots referenziert werden, so genannte „verwaiste“ Dateien, was die Speicherkosten weiter erhöht. Die neuen Speicheroptimierungen in AWS Glue Catalog sowie die automatische Komprimierung helfen Ihnen, den Metadaten-Overhead zu verringern, die Speicherkosten einzugrenzen und die Abfrageleistung zu verbessern.
Mit der Markteinführung können Sie in AWS Glue Catalog die Tabellenoptimierung aktivieren, um Snapshot- und Orphan-Data-Management einzubeziehen. Sie können das Amazon S3-Layout durch das Bereitstellen einer Konfiguration optimieren, wie z. B. den standardmäßigen Aufbewahrunggszeitraum oder die Aufbewahrungtage für verwaiste Dateien. Nach der Aktivierung überwacht AWS Glue Catalog periodisch Tabellen, entfernt Snapshots aus Tabellenmetadaten, entfernt die Amazon S3-Datendateien und verwaiste Dateien, die nicht mehr benötigt werden. Sie können den Verlauf der Anzahl gelöschter Daten, Manifeste, Manifestlisten und verwaisten Dateien auf der Registerkarte „Tabellenoptimierung“ in der Glue-Katalog-Konsole einsehen.
Neben der AWS-Konsole können Kunden auch die AWS CLI oder das AWS SDK verwenden, um Tabellenoptimierung für Apache Iceberg-Tabellen zu aktivieren. Die automatische Optimierung für Iceberg-Tabellen ist in 13 AWS-Regionen verfügbar: USA Ost (Nord-Virginia, Ohio), USA West (Oregon), Europa (Irland, London, Frankfurt, Stockholm), Asien-Pazifik (Tokio, Seoul, Mumbai, Singapur, Sydney), Südamerika (São Paulo). Weitere Informationen erhalten Sie im Blog sowie in der Dokumentation zu AWS-Glue-Datenkatalog.