Veröffentlicht am: Nov 20, 2023

Amazon Redshift kann jetzt die im AWS-Glue-Datenkatalog gespeicherten Statistiken auf Spaltenebene nutzen, um die Abfrageleistung von Data Lake zu verbessern, indem optimierte Abfragepläne generiert werden. 

AWS Glue unterstützt Statistiken auf Spaltenebene im AWS-Glue-Datenkatalog, sodass Kunden statistische Informationen wie Mindest- und Höchstwerte sowie die Anzahl der unterschiedlichen Werte für jede Spalte speichern können. Amazon Redshift ruft diese Informationen jetzt automatisch von AWS Glue ab, optimiert dann die Abfragepläne mithilfe von Statistiken und sorgt für Leistungsverbesserungen für Ihre Data Lake-Abfragen. Mit der kürzlich eingeführten AWS Glue-Funktion zur Generierung von Statistiken auf Spaltenebene können Sie automatisch statistische Informationen aus Ihren Data Lake-Tabellen sammeln und die Statistiken auf Spaltenebene aktualisieren, anstatt diese Informationen manuell auszufüllen.

Zu Beginn können Sie die AWS Glue-Konsole oder die AWS Glue-APIs verwenden, um Spaltenstatistiken für Ihre Data Lake-Tabellen zu generieren. Anschließend können Sie mithilfe des automatisch bereitgestellten Glue-Katalogs oder externer Schemas Abfragen für diese Tabellen in Redshift ausführen. 

Optimierungen von Amazon Redshift Data Lake-Abfrageplänen mithilfe von AWS Glue-Statistiken auf Spaltenebene sind generell in allen AWS-Regionen verfügbar, in denen Amazon Redshift Spectrum oder Amazon Redshift Serverless verfügbar ist. Weitere Informationen finden Sie im Entwicklerhandbuch zu Amazon-Redshift-Datenbanken und in der Dokumentation zu AWS Glue.