Veröffentlicht am: Nov 17, 2023
AWS-Glue-Datenkatalog unterstützt jetzt die Generierung von Statistiken auf Spaltenebene für AWS Glue-Tabellen. Diese Statistiken sind jetzt in den kostenbasierten Optimizer (CBO) von Amazon Athena und Amazon Redshift Spectrum integriert, was zu einer verbesserten Abfrageleistung und potenziellen Kosteneinsparungen führt.
Mit dieser Markteinführung verfügen Kunden nun über ein integriertes Ende-zu-Ende-Erlebnis, bei dem Statistiken zu Glue-Tabellen gesammelt und im Glue-Katalog gespeichert und den Analysediensten zur Verfügung gestellt werden, um die Planung und Ausführung von Abfragen zu verbessern. Bei diesen Statistiken handelt es sich um Statistiken auf Spaltenebene, wie Anzahl der einzelnen Werte, Anzahl von Nullwerten, Maximal- und Minimalwerte für Dateien wie Parquet, ORC, JSON, ION, CSV, XML. Mithilfe von Statistiken können Analysedienste wie Amazon Athena und Amazon Redshift Abfragen optimieren, indem sie die restriktivsten Filter so früh wie möglich in der Abfrageverarbeitung anwenden. Dadurch werden die Speichernutzung und die Anzahl der Datensätze begrenzt, die gelesen werden, um die Abfrageergebnisse bereitzustellen.
Zu Beginn können Benutzer mithilfe der AWS-Glue-Konsole oder der AWS-Glue-APIs Statistiken erstellen und Statistiken für die AWS-Glue-Katalogtabelle anzeigen. Wenn Kunden Abfragen von Amazon Athena und Amazon Redshift Spectrum ausführen, erhalten sie automatisch die Verbesserungen der Abfrageleistung durch die Integration mit AWS-Glue-Katalog.
Die Unterstützung für die Generierung von Statistiken mit AWS-Glue-Katalog ist generell in den folgenden AWS-Regionen verfügbar: USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), Europa (Irland), Asien-Pazifik (Tokio, Osaka). Lesen Sie den Athena-Blogbeitrag und sehen Sie sich die Dokumentation zu AWS-Glue-Katalog an, um mehr zu erfahren.