AWS-Glue-Datenkatalog unterstützt jetzt die Generierung von Statistiken für Apache-Iceberg-Tabellen

Veröffentlicht am: 9. Juli 2024

AWS-Glue-Datenkatalog unterstützt jetzt die Generierung von aggregierten Statistiken auf Spaltenebene für Apache-Iceberg-Tabellen. Diese Statistiken sind jetzt in den kostenbasierten Optimizer (CBO) von Amazon Redshift Spectrum integriert, was zu einer verbesserten Abfrageleistung und potenziellen Kosteneinsparungen führt.

Apache Iceberg unterstützt Statistiken wie Nulls, Min, Max, bietet jedoch keine Unterstützung bei der Generierung von aggregierten Statistiken wie Number of Distinct Values (NDV). Mit dieser Markteinführung besitzen Sie jetzt eine integrierte Ende-zu-Ende Erfahrung, bei der NDVs in den Spalten der Apache-Iceberg-Tabelle gesammelt und in Apache-Iceberg-Puffin-Dateien gespeichert werden. Amazon Redshift verwendet diese aggregierten Statistiken zur Optimierung von Abfragen, indem sie die restriktivsten Filter so frühzeitig wie möglich in der Abfrageverarbeitung anwenden. Dadurch werden die Speichernutzung und die Anzahl der zur Bereitstellung der Abfrageergebnisse gelesenen Datensätze begrenzt.

Sie können zunächst mittels AWS-Glue-Konsole oder AWS-Glue-API Statistiken für eine Apache Iceberg-Tabelle generieren. Bei jedem Durchlauf berechnet Glue Catalog Statistiken für den aktuellen Iceberg-Tabellen-Snapshot und speichert diese in einer Puffin-Datei in Iceberg und Glue Catalog. Wenn Sie Abfragen von Amazon Redshift Spectrum ausführen, profitieren Sie automatisch von der verbesserten Abfrageleistung durch die Integration mit Apache Iceberg.

Die Unterstützung für die Generierung von Statistiken auf AWS Glue Katalog ist in folgenden AWS-Regionen allgemein verfügbar: USA Ost (Ohio), USA West (Nordkalifornien), Europa (Frankfurt), Asien-Pazifik (Mumbai). Lesen Sie den Blogbeitrag und besuchen Sie die Dokumentation zu AWS Glue Catalog für weitere Informationen.