Integrierter Datenkatalog

Der AWS Glue Datenkatalog ist Ihr dauerhafter Metadatenspeicher für alle Ihre Daten, unabhängig davon, wo diese lokalisiert sind. Der Datenkatalog enthält Tabellendefinitionen, Jobdefinitionen, Schemata und andere Kontrollinformationen, die Ihnen helfen, Ihre AWS Glue-Umgebung zu verwalten. Er berechnet automatisch Statistiken und registriert Partitionen, um Anfragen zu Ihren Daten effizient und kostengünstig zu gestalten. Er unterhält auch einen umfangreichen Schemaversionsverlauf, damit Sie verstehen, wie sich Ihre Daten im zeitlichen Verlauf geändert haben.

Automatische Schema-Erkennung

AWS Glue-Datenausleseprogramme (sog. Crawler) verbinden sich mit Ihrem Quell- oder Zieldatenspeicher und durchlaufen eine priorisierte Liste von Klassifikatoren, um das Schema für Ihre Daten zu bestimmen und anschließend Metadaten in Ihrem AWS Glue Datenkatalog zu erstellen. Die Metadaten werden in Tabellen in Ihrem Datenkatalog gespeichert und für den Erstellungsprozess Ihrer ETL-Jobs verwendet. Sie können die Crawler anhand eines Zeitplans, On-Demand oder ereignisgesteuert auslösen, um sicherzustellen dass Ihre Metadaten aktuell sind.

Visuelles ETL und Code-Generierung

Mit AWS Glue Studio können Sie hochgradig skalierbare ETL-Aufgaben für die verteilte Verarbeitung erstellen, ohne ein Apache-Spark-Experte zu werden. Definieren Sie Ihren ETL-Prozess im Drag-and-Drop-Aufgaben-Editor und AWS Glue generiert automatisch den Code zum Extrahieren, Transformieren und Laden Ihrer Daten. Der Code wird in Scala oder Python erstellt und für Apache Spark geschrieben.

Deduplizierte Daten

AWS Glue hilft Ihnen, Ihre Daten zu bereinigen und für die Analyse vorzubereiten, ohne ein Experte für Machine Learning zu werden. Die FindMatches-Funktion dedupliziert und findet Datensätze, die nicht perfekt miteinander übereinstimmen. Sie können FindMatches etwa verwenden, um doppelte Datensätze in Ihrer Restaurantdatenbank zu finden, zum Beispiel, wenn ein Datensatz „Joe‘s Pizza“ unter „121 Main St.“ und ein anderer „Joseph‘s Pizzeria“ unter „121 Main“ aufführt. FindMatches fordert Sie lediglich auf, Datensätze entweder als „übereinstimmend“ oder als „nicht übereinstimmend“ zu kennzeichnen. Das System erlernt dann Ihre Kriterien, nach denen Datensätze „übereinstimmen“ und erstellt eine ETL-Aufgabe, die Sie zur Ermittlung doppelter Datensätze in einer Datenbank oder zum Abgleich von Datensätzen in zwei Datenbanken verwenden können.

Entwickler-Endpunkte

Wenn Sie sich dafür entscheiden, Ihren ETL-Code interaktiv zu entwickeln, stellt Ihnen AWS Glue Entwicklungsendpunkte zum Editieren, Debuggen und Testen des für Sie generierten Codes zur Verfügung. Sie können Ihre bevorzugte IDE oder Ihr Notebook verwenden. Sie können benutzerdefinierte Leser, Schreiber oder Transformationen schreiben und diese in Ihre AWS Glue ETL-Jobs und benutzerdefinierten Bibliotheken importieren. Über unser GitHub-Repository können Sie auch den Code anderer Entwickler verwenden oder Ihren Code teilen.

Flexibler Job-Scheduler

AWS Glue-Jobs können anhand eines Zeitplans, On-Demand oder ereignisgesteuert aktiviert werden. Sie können mehrere Jobs parallel starten oder Abhängigkeiten zwischen Jobs festlegen, um komplexe ETL-Pipelines aufzubauen. AWS Glue bearbeitet alle Abhängigkeiten zwischen Jobs, filtert schlechte Daten aus und startet Jobs neu, falls diese fehlschlagen. Alle Protokolle und Benachrichtigungen werden zu Amazon CloudWatch übertragen, so dass Sie von einem zentralen Service aus Kontrolle ausüben und Warnmeldungen erhalten können.

ETL für serverloses Streaming

Serverlose ETL-Streaming-Aufgaben in AWS Glue verbrauchen kontinuierlich Daten aus Streaming-Quellen wie Amazon Kinesis und Amazon MSK, bereinigen und transformieren sie während der Übertragung und stellen sie in Sekundenschnelle in Ihrem Zieldatenspeicher zur Analyse bereit. Nutzen Sie diese Funktion, um Ereignisdaten wie IoT Event-Streams, Clickstreams und Netzwerkprotokolle zu verarbeiten. AWS Glue Streaming ETL-Jobs können Daten ergänzen und aggregieren, Batch- und Streaming-Quellen verbinden und eine Vielzahl komplexer Analyse- und Machine Learning-Vorgänge ausführen.

Visuelle Self-Service-Datenaufbereitung

AWS Glue DataBrew bietet eine interaktive, visuelle Point-and-Click-Oberfläche für Benutzer wie Datenanalysten und Daten-Wissenschaftler, um Daten zu bereinigen und zu normalisieren, ohne Code zu schreiben. Sie können Daten direkt aus Ihren Data Lake, Data Warehouses und Datenbanken, einschließlich Amazon S3, Amazon Redshift, Amazon Aurora und Amazon RDS, einfach visualisieren, bereinigen und normalisieren. Sie können aus über 250 eingebauten Transformationen wählen, um die Daten zu kombinieren, zu schwenken und zu transponieren und um Datenvorbereitungsaufgaben zu automatisieren, indem Sie gespeicherte Transformationen direkt auf die neu eingehenden Daten anwenden.

AWS Glue – Preise
Zur Seite mit den Preisinformationen

Entdecken Sie die Preisoptionen für AWS Glue.

Weitere Informationen 
Registrieren Sie sich für ein AWS-Konto
Registrieren Sie sich und erhalten Sie ein kostenloses Konto

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Beginnen Sie mit der Entwicklung in der Konsole
Beginnen Sie mit der Entwicklung in der Konsole

Beginnen Sie mit dem Erstellen von AWS Glue in der AWS-Managementkonsole.

Anmeldung