Veröffentlicht am: Oct 14, 2022

AWS Glue umfasst Crawler, die auf Amazon-S3-Ereignisbenachrichtigungen basieren. Durch diese Funktion wird das Auffinden von Datensätzen vereinfacht, indem nur auf Amazon-S3-Ereignissen basierende Daten gescannt werden. Der Glue-Crawler extrahiert das Datenschema und pflegt es automatisch in den AWS-Glue-Datenkatalog ein, so dass die Metadaten immer aktuell sind. Durch das Crawlen von auf S3-Ereignissen basierenden Datensätzen wird die Zeit bis zum Erhalt von Erkenntnissen verkürzt, indem neu aufgenommene Daten schnell für die Analyse mit deinen bevorzugten Analyse- und Machine-Learning-Tools verfügbar gemacht werden.

Heute weiten wir den Support auf inkrementelles Crawling die Aktualisierung von Katalogtabellen aus, die durch Nicht-Crawler-Methoden wie API-Aufrufe innerhalb von Data Pipelines erstellt wurden. Mit dieser Funktion kann inkrementelles Crawling jetzt aus Data Pipelines auf den geplante Glue Crawler ausgelagert werden, wodurch Crawls auf inkrementelle S3-Ereignisse reduziert werden.

Um inkrementelles Crawling zu erreichen, können Kunden Ereignisbenachrichtigungen von Amazon S3 so konfigurieren, dass sie an eine Warteschlange von Amazon Simple Queue Service (SQS) geschickt werden. Diese SQS-Warteschlange können die Kunden dann als Quelle zur Identifizierung von Änderungen verwenden und sie können damit Glue Crawler planen oder ausführen, die Glue-Datenkatalogtabellen als Ziel haben. Bei jeder Ausführung des Crawlers wird die SQS-Warteschlange auf neue Ereignisse überprüft. Wenn keine Ereignisse gefunden werden, stoppt der Crawler. Wenn in der Warteschlange Ereignisse gefunden werden, untersucht der Crawler ihre jeweiligen Ordner, verarbeitet sie durch eingebaute Klassifikatoren (für CSV, JSON, AVRO, XML usw.) und ermittelt die Änderungen. Dann aktualisiert der Crawler den Glue-Datenkatalog mit neuen Informationen, wie z. B. neu hinzugefügte oder gelöschte Partitionen oder Spalten. Diese Funktion reduziert die Kosten und den Zeitaufwand für das Crawlen von großen und sich häufig ändernden Amazon-S3-Daten.

Diese Funktion ist in allen kommerziellen Regionen verfügbar, in denen AWS Glue verfügbar ist, siehe AWS-Regionentabelle. Weitere Informationen erhältst du im Blog sowie in der Dokumentation zu AWS-Glue-Crawler.