Veröffentlicht am: Apr 24, 2023
AWS Glue Crawler extrahieren das Datenschema und die Partitionen aus Amazon S3 und füllen den AWS-Glue-Datenkatalog auf, sodass die Metadaten aktuell bleiben. Ab heute unterstützt AWS Glue Crawler auch das automatische Hinzufügen von Partitionsindizes für neu entdeckte Tabellen, sodass Analysedienste wie Amazon Athena und AWS Glue die Partitionsverarbeitung optimieren können. Dadurch wird die Abfrageleistung in stark partitionierten Tabellen verbessert.
Die Anzahl der Partitionen in einer bestimmten Tabelle kann im Laufe der Zeit erheblich zunehmen. Da Analysedienste wie Amazon Athena eine Tabelle mit Millionen von Partitionen abfragen, dauern Partitionsabrufe länger, was zu einer Erhöhung der Abfragelaufzeit führen kann. In dieser Version erstellt der AWS Glue Crawler standardmäßig auch einen Partitionsindex, wenn er eine neue AWS-Glue-Datenkatalogtabelle erstellt. Der Partitionsindex muss also nicht manuell erstellt werden. Der AWS-Glue-Datenkatalog erstellt dann einen schnellen, durchsuchbaren Index auf der Grundlage der Partitionsindexschlüssel, wodurch der Zeitaufwand für das Abrufen und Filtern von Partitionsmetadaten in Tabellen mit Millionen von Partitionen reduziert wird. Die Erstellung von Partitionsindizes kommt auch den Analyse-Workloads zugute, die auf Amazon Athena, Amazon EMR, Amazon Redshift Spectrum und AWS Glue ausgeführt werden.
Die Unterstützung von AWS Glue Crawler für die Erstellung von Partitionsindizes ist allgemein in allen kommerziellen Regionen verfügbar, in denen AWS Glue verfügbar ist. Weitere Informationen finden Sie in der AWS-Glue-Crawler-Dokumentation.