Integrierter Datenkatalog

Der AWS Glue Datenkatalog ist Ihr dauerhafter Metadatenspeicher für alle Ihre Daten, unabhängig davon, wo diese lokalisiert sind. Der Datenkatalog enthält Tabellendefinitionen, Jobdefinitionen und andere Kontrollinformationen, die Ihnen helfen, Ihre AWS Glue-Umgebung zu verwalten. Er berechnet automatisch Statistiken und registriert Partitionen, um Anfragen zu Ihren Daten effizient und kostengünstig zu gestalten. Er unterhält auch einen umfangreichen Schemaversionsverlauf, damit Sie verstehen, wie sich Ihre Daten im zeitlichen Verlauf geändert haben.

Automatische Schema-Erkennung

AWS Glue-Datenausleseprogramme (sog. Crawler) verbinden sich mit Ihrem Quell- oder Zieldatenspeicher und durchlaufen eine priorisierte Liste von Klassifikatoren, um das Schema für Ihre Daten zu bestimmen und anschließend Metadaten in Ihrem AWS Glue Datenkatalog zu erstellen. Die Metadaten werden in Tabellen in Ihrem Datenkatalog gespeichert und für den Erstellungsprozess Ihrer ETL-Jobs verwendet. Sie können die Crawler anhand eines Zeitplans, On-Demand oder ereignisgesteuert auslösen, um sicherzustellen dass Ihre Metadaten aktuell sind.

Code-Generierung

AWS Glue generiert automatisch den Code zum Extrahieren, Transformieren und Laden Ihrer Daten. Verweisen Sie Glue einfach auf Ihre Datenquelle und Ihr Datenziel und Glue erstellt ETL-Skripts zum Transformieren, Glätten und Anreichern Ihrer Daten. Der Code wird in Scala oder Python erstellt und für Apache Spark geschrieben.

Entwickler-Endpunkte

Wenn Sie sich dafür entscheiden, Ihren ETL-Code interaktiv zu entwickeln, stellt Ihnen Glue Entwicklungsendpunkte zum Editieren, Debuggen und Testen des für Sie generierten Codes zur Verfügung. Sie können Ihre bevorzugte IDE oder Ihr Notebook verwenden. Sie können benutzerdefinierte Leser, Schreiber oder Transformationen schreiben und diese in Ihre ETL-Jobs und benutzerdefinierten Bibliotheken importieren. Über unser GitHub-Repository können Sie auch den Code anderer Entwickler verwenden oder Ihren Code teilen.

Flexibler Job-Scheduler

AWS Glue-Jobs können anhand eines Zeitplans, On-Demand oder ereignisgesteuert aktiviert werden. Sie können mehrere Jobs parallel starten oder Abhängigkeiten zwischen Jobs festlegen, um komplexe ETL-Pipelines aufzubauen. Glue bearbeitet alle Abhängigkeiten zwischen Jobs, filtert schlechte Daten aus und startet Jobs neu, falls diese fehlschlagen. Alle Protokolle und Benachrichtungen werden zu Amazon CloudWatch übertragen, so dass Sie von einem zentralen Service aus Kontrolle ausüben und Warnmeldungen erhalten können.

Hier finden Sie weitere Informationen zu den Preisen für AWS Glue.

Zur Seite mit den Preisen
Bereit zum Entwickeln?
Erste Schritte mit AWS Glue
Haben Sie Fragen?
Kontakt