AWS-Glue-Datenkatalog unterstützt jetzt die geplante Generierung von Statistiken auf Spaltenebene
AWS-Glue-Datenkatalog unterstützt jetzt die geplante Generierung von Statistiken auf Spaltenebene für Apache Iceberg-Tabellen und Dateiformate wie Parquet, JSON, CSV, XML, ORC und ION. Mit diesem Launch können Sie die Generierung von Statistiken vereinfachen und automatisieren, indem Sie einen wiederkehrenden Zeitplan im Glue-Datenkatalog erstellen. Diese Statistiken sind in den kostenbasierten Optimizer (CBO) von Amazon Redshift Spectrum und Amazon Athena integriert, was zu einer verbesserten Abfrageleistung und potenziellen Kosteneinsparungen führt.
Bisher mussten Sie AWS-Services mithilfe einer Kombination aus AWS Lambda und Amazon EventBridge Scheduler aufrufen, um einen Zeitplan für die Generierung wiederkehrender Statistiken einzurichten. Mit diesem neuen Feature können Sie den wiederkehrenden Zeitplan jetzt zusammen mit dem Stichprobenprozentsatz als zusätzliche Konfiguration für Glue Data Catalog bereitstellen. Für jeden geplanten Lauf wird die Anzahl der unterschiedlichen Werte (NDVs) für Apache Iceberg-Tabellen erfasst, und zusätzliche Statistiken wie die Anzahl der Nullen, die maximale, minimale und durchschnittliche Länge werden für andere Dateiformate gesammelt. Sobald die Statistiken aktualisiert werden, verwenden Amazon Redshift und Amazon Athena sie, um Abfragen zu optimieren, indem sie Optimierungen wie die optimale Join-Reihenfolge oder kostenbasierten Aggregations-Pushdown verwenden. Sie haben Einblick in den Status und den Zeitpunkt jedes Durchlaufs der Statistikgenerierung sowie in die aktualisierten Statistikwerte.
Sie können die Generierung von Statistiken mithilfe der AWS-Glue-Datenkatalog-Konsole oder der AWS-Glue-APIs planen. Die Unterstützung für die geplante Generierung von AWS-Glue-Katalogstatistiken ist generell in allen Regionen verfügbar, in denen Amazon EventBridge Scheduler verfügbar ist. Weitere Informationen finden Sie in der Dokumentation zu AWS Glue Catalog.