Der AWS Glue-Datenkatalog automatisiert jetzt das Generieren von Statistiken für neue Tabellen

Veröffentlicht am: 3. Dez. 2024

AWS-Glue-Datenkatalog automatisiert jetzt die Erstellung von Statistiken für neue Tabellen. Diese Statistiken sind in den kostenbasierten Optimizer (CBO) von Amazon Redshift und Amazon Athena integriert, was zu einer verbesserten Abfrageleistung und potenziellen Kosteneinsparungen führt.

Tabellenstatistiken werden von einer Abfrage-Engine wie z. B. Amazon Redshift und Amazon Athena dazu verwendet, die effizienteste Methode für die Ausführung einer Anfrage zu ermitteln. Um Statistiken für Apache Iceberg-Tabellen zu erstellen, mussten Sie bisher die Konfigurationen Ihrer Tabellen im AWS-Glue-Datenkatalog kontinuierlich überwachen und aktualisieren. Mit AWS-Glue-Datenkatalog können Sie jetzt automatisch Statistiken für neue Tabellen erstellen, indem Sie den Katalog einmalig konfigurieren. Dafür können Sie zunächst in der Lake-Formation-Konsole den Standardkatalog auswählen und auf der Tab „Optimierung der Tabellenkonfiguration“ die Tabellenstatistiken aktivieren. Wenn neue Tabellen erstellt oder bestehende Tabellen aktualisiert werden, werden die Statistiken auf Basis einer Stichprobenzeile für alle Spalten erstellt und regelmäßig aktualisiert. Für Apache Iceberg-Tabellen enthalten diese Statistiken die Anzahl der eindeutigen Werte (NDVs). Für andere Dateiformate wie Parquet werden zusätzliche Statistiken erfasst, z. B. die Zahl der Nullen, die Mindest- und Höchstwerte und die durchschnittliche Länge. Amazon Redshift und Amazon Athena verwenden die aktualisierten Statistiken, um Abfragen zu optimieren, indem sie Optimierungen wie die optimale Join-Reihenfolge oder kostenbasierten Aggregations-Pushdown verwenden. Die Glue-Katalog-Konsole bietet Ihnen eine Übersicht über die aktualisierten Statistiken und Generierungsläufe von Statistiken.

Unterstützung für die Automatisierung der AWS-Glue Catalog-Statistiken ist in den folgenden AWS-Regionen allgemein verfügbar: USA Ost (Nord-Virginia,Ohio),USA West (Nord, Oregon), Europa (Irland), Asien-Pazifik (Tokio). Lesen Sie den Blogbeitrag und besuchen Sie die Dokumentation zu AWS Glue Catalog für weitere Informationen.