Integrierter Datenkatalog

Der AWS Glue Datenkatalog ist Ihr dauerhafter Metadatenspeicher für alle Ihre Daten, unabhängig davon, wo diese lokalisiert sind. Der Datenkatalog enthält Tabellendefinitionen, Jobdefinitionen und andere Kontrollinformationen, die Ihnen helfen, Ihre AWS Glue-Umgebung zu verwalten. Er berechnet automatisch Statistiken und registriert Partitionen, um Anfragen zu Ihren Daten effizient und kostengünstig zu gestalten. Er unterhält auch einen umfangreichen Schemaversionsverlauf, damit Sie verstehen, wie sich Ihre Daten im zeitlichen Verlauf geändert haben.

Automatische Schema-Erkennung

AWS Glue-Datenausleseprogramme (sog. Crawler) verbinden sich mit Ihrem Quell- oder Zieldatenspeicher und durchlaufen eine priorisierte Liste von Klassifikatoren, um das Schema für Ihre Daten zu bestimmen und anschließend Metadaten in Ihrem AWS Glue Datenkatalog zu erstellen. Die Metadaten werden in Tabellen in Ihrem Datenkatalog gespeichert und für den Erstellungsprozess Ihrer ETL-Jobs verwendet. Sie können die Crawler anhand eines Zeitplans, On-Demand oder ereignisgesteuert auslösen, um sicherzustellen dass Ihre Metadaten aktuell sind.

Code-Generierung

AWS Glue generiert automatisch den Code zum Extrahieren, Transformieren und Laden Ihrer Daten. Verweisen Sie AWS Glue einfach auf Ihre Datenquelle und Ihr Datenziel und AWS Glue erstellt ETL-Skripte zum Transformieren, Glätten und Anreichern Ihrer Daten. Der Code wird in Scala oder Python erstellt und für Apache Spark geschrieben.

Bereinigen und Deduplizieren von Daten

AWS Glue hilft Ihnen, Daten zur Analyse zu bereinigen und aufzubereiten. Ein Machine-Learning-Transform namens FindMatches kann Datensätze deduplizieren und Übereinstimmungen ermitteln. Sie können AWS LakeFormation FindMatches etwa verwenden, um doppelte Datensätze in Ihrer Restaurantdatenbank zu finden, zum Beispiel, wenn ein Datensatz „Joe‘s Pizza“ unter „121 Main St.“ und ein anderer „Joseph‘s Pizzeria“ unter „121 Main“ aufführt. Sie müssen dafür nichts über Machine Learning wissen. FindMatches fordert Sie lediglich auf, Datensätze entweder als „übereinstimmend“ oder als „nicht übereinstimmend“ zu kennzeichnen. Das System erlernt dann Ihre Kriterien, nach denen Datensätze „übereinstimmen“ und erstellt einen ML Transform, den Sie zur Ermittlung doppelter Datensätze in einer Datenbank oder zum Abgleich von Datensätzen in zwei Datenbanken verwenden können.

Entwickler-Endpunkte

Wenn Sie sich dafür entscheiden, Ihren ETL-Code interaktiv zu entwickeln, stellt Ihnen AWS Glue Entwicklungsendpunkte zum Editieren, Debuggen und Testen des für Sie generierten Codes zur Verfügung. Sie können Ihre bevorzugte IDE oder Ihr Notebook verwenden. Sie können benutzerdefinierte Leser, Schreiber oder Transformationen schreiben und diese in Ihre AWS Glue ETL-Jobs und benutzerdefinierten Bibliotheken importieren. Über unser GitHub-Repository können Sie auch den Code anderer Entwickler verwenden oder Ihren Code teilen.

Flexibler Job-Scheduler

AWS Glue-Jobs können anhand eines Zeitplans, On-Demand oder ereignisgesteuert aktiviert werden. Sie können mehrere Jobs parallel starten oder Abhängigkeiten zwischen Jobs festlegen, um komplexe ETL-Pipelines aufzubauen. AWS Glue bearbeitet alle Abhängigkeiten zwischen Jobs, filtert schlechte Daten aus und startet Jobs neu, falls diese fehlschlagen. Alle Protokolle und Benachrichtigungen werden zu Amazon CloudWatch übertragen, so dass Sie von einem zentralen Service aus Kontrolle ausüben und Warnmeldungen erhalten können.

ETL für serverloses Streaming

ETL für serverloses Streaming in AWS Glue erleichtert es fortlaufende Eingabe-Pipelines einzurichten, die Streaming-Daten im Handumdrehen aufbereiten und in Sekundenschnelle zur Auswertung bereitstellen. Diese Jobs können Daten aus Streaming-Quellen wie Amazon Kinesis und Apache Kafka verbrauchen, diese Datenströme im laufenden Betrieb bereinigen und transformieren und die Ergebnisse kontinuierlich in Amazon S3 Data Lakes, Data Warehouses und andere Datenspeicher laden. Nutzen Sie diese Funktion, um Ereignisdaten wie IoT Event-Streams, Clickstreams und Netzwerkprotokolle zu verarbeiten. AWS Glue Streaming ETL-Jobs können Daten ergänzen und aggregieren, Batch- und Streaming-Quellen verbinden und eine Vielzahl komplexer Analyse- und Machine Learning-Vorgänge ausführen.

AWS Glue – Preise
Zur Seite mit den Preisinformationen

Entdecken Sie die Preisoptionen für AWS Glue.

Weitere Informationen 
Registrieren Sie sich für ein AWS-Konto
Registrieren Sie sich und erhalten Sie ein kostenloses Konto

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Beginnen Sie mit der Entwicklung in der Konsole
Beginnen Sie mit der Entwicklung in der Konsole

Beginnen Sie mit dem Erstellen von AWS Glue in der AWS-Managementkonsole.

Anmeldung