AWS Glue ist ein vollständig verwalteter Service zum Extrahieren, Transformieren und Laden (Extract, Transform and Load; ETL) von Daten, den Sie verwenden können, um Ihre Daten zu katalogisieren, zu säubern, anzureichern, und zwischen Datenspeichern zu bewegen. Mit AWS Glue können Sie Ihre Kosten, die Komplexität und den Zeitaufwand bei der Erstellung von ETL-Jobs signifikant reduzieren. AWS Glue ist serverlos, es gibt also keine Infrastruktur, Einrichtung oder Verwaltung. Sie zahlen nur für die Ressourcen, die Sie verbrauchen, während Ihre Jobs laufen.

Bereit, Ihr ETL zu starten?

Erste Schritte mit AWS Glue
100x100_benefit_ingergration

Der AWS Glue Datenkatalog ist Ihr dauerhafter Metadatenspeicher für alle Ihre Daten, unabhängig davon, wo diese lokalisiert sind. Der Datenkatalog enthält Tabellendefinitionen, Jobdefinitionen und andere Kontrollinformationen, die Ihnen helfen, Ihre AWS Glue-Umgebung zu verwalten. Er berechnet automatisch Statistiken und registriert Partitionen, um Anfragen zu Ihren Daten effizient und kostengünstig zu gestalten. Er unterhält auch einen umfangreichen Schemaversionsverlauf, damit Sie verstehen, wie sich Ihre Daten im zeitlichen Verlauf geändert haben.

100x100_benefit_automated

AWS Glue-Datenausleseprogramme (sog. Crawler) verbinden sich mit Ihrem Quell- oder Zieldatenspeicher und durchlaufen eine priorisierte Liste von Klassifikatoren, um das Schema für Ihre Daten zu bestimmen und anschließend Metadaten in Ihrem AWS Glue Datenkatalog zu erstellen. Die Metadaten werden in Tabellen in Ihrem Datenkatalog gespeichert und für den Erstellungsprozess Ihrer ETL-Jobs verwendet. Sie können die Crawler anhand eines Zeitplans, On-Demand oder ereignisgesteuert auslösen, um sicherzustellen dass Ihre Metadaten aktuell sind.

100x100_benefit_code

AWS Glue generiert automatisch den Code zum Extrahieren, Transformieren und Laden Ihrer Daten. Verweisen Sie Glue einfach auf Ihre Datenquelle und Ihr Datenziel und Glue erstellt ETL-Skripts zum Transformieren, Glätten und Anreichern Ihrer Daten. Der Code wird in Python erstellt und für die Apache Spark 2.1-Umgebung geschrieben.

100x100_benefit_tools

Wenn Sie sich dafür entscheiden, Ihren ETL-Code interaktiv zu entwickeln, stellt Ihnen Glue Entwicklungsendpunkte zum Editieren, Debuggen und Testen des für Sie generierten Codes zur Verfügung. Sie können Ihre bevorzugte IDE oder Ihr Notebook verwenden. Sie können benutzerdefinierte Leser, Schreiber oder Transformationen schreiben und diese in Ihre ETL-Jobs und benutzerdefinierten Bibliotheken importieren. Über unser GitHub-Repository können Sie auch den Code anderer Entwickler verwenden oder Ihren Code teilen.

100x100_benefit_monitoring-logging

AWS Glue-Jobs können anhand eines Zeitplans, On-Demand oder ereignisgesteuert aktiviert werden. Sie können mehrere Jobs parallel starten oder Abhängigkeiten zwischen Jobs festlegen, um komplexe ETL-Pipelines aufzubauen. Glue bearbeitet alle Abhängigkeiten zwischen Jobs, filtert schlechte Daten aus und startet Jobs neu, falls diese fehlschlagen. Alle Protokolle und Benachrichtungen werden zu Amazon CloudWatch übertragen, so dass Sie von einem zentralen Service aus Kontrolle ausüben und Warnmeldungen erhalten können.

Die ersten Schritte mit AWS Glue sind einfach. Melden Sie sich einfach bei der AWS Management Console an, und rufen Sie in der Analysekategorie "Glue" auf.

Sind Sie zum Starten Ihres ETL-Service bereit?

Erste Schritte mit AWS Glue