Veröffentlicht am: Oct 15, 2021
AWS Glue enthält Crawler, eine Funktion, die das Auffinden von Datensätzen vereinfacht, indem sie Daten in Amazon S3 und relationalen Datenbanken scannt, deren Schema extrahiert und automatisch den AWS-Glue-Datenkatalog auffüllt, der die Metadaten aktuell hält. Dies verkürzt die Zeit für Erkenntnisse, indem neu aufgenommene Daten schnell für die Analyse mit Ihren bevorzugten Analyse- und Machine-Learning-Tools verfügbar gemacht werden.
Wenn Sie den AWS Glue Crawler konfigurieren, um Daten in Amazon S3 zu erkennen, können Sie zwischen einem vollständigen Scan, bei dem alle Objekte in einem bestimmten Pfad jedes Mal verarbeitet werden, wenn der Crawler ausgeführt wird, oder einen inkrementellen Scan wählen, bei dem nur die Objekte in einem neu hinzugefügten Ordner verarbeitet. Der vollständige Scan ist nützlich, wenn Änderungen an der Tabelle nicht deterministisch sind und sich auf jedes Objekt oder jede Partition auswirken können. Der inkrementelle Crawl ist nützlich, wenn der Tabelle neue Partitionen oder Ordner hinzugefügt werden. Bei großen, sich häufig ändernden Tabellen kann der inkrementelle Crawling-Modus erweitert werden, um die Zeit zu verkürzen, die der Crawler benötigt, um zu ermitteln, welche Objekte geändert wurden.
Heute starten wir die Unterstützung für Amazon-S3-Ereignisbenachrichtigungen als Quelle für AWS Glue Crawler, um AWS-Glue-Datenkatalog-Tabellen inkrementell zu aktualisieren. Kunden können Amazon-S3-Ereignisbenachrichtigungen so konfigurieren, dass sie an eine Warteschlange der Amazon Simple Queue Service (SQS) gesendet werden, die der Crawler verwendet, um die neu hinzugefügten oder gelöschten Objekte zu identifizieren. Bei jeder Ausführung des Crawlers wird die SQS-Warteschlange auf neue Ereignisse überprüft, wenn keine gefunden werden, stoppt der Crawler. Wenn Ereignisse in der Warteschlange gefunden werden, überprüft der Crawler ihre jeweiligen Ordner und verarbeitet die neuen Objekte. Dieser neue Modus reduziert die Kosten und die Zeit, die ein Crawler benötigt, um große und sich häufig ändernde Tabellen zu aktualisieren.
AWS-Glue-Crawler-Unterstützung für Amazon-S3-Ereignisbenachrichtigungen ist in allen Regionen verfügbar, in denen AWS Glue verfügbar ist, siehe AWS-Regionentabelle. Weitere Informationen finden Sie in der AWS-Glue-Crawler-Dokumentation.