Integrierter Datenkatalog

Der AWS Glue Datenkatalog ist Ihr dauerhafter Metadatenspeicher für alle Ihre Daten, unabhängig davon, wo diese lokalisiert sind. Der Datenkatalog enthält Tabellendefinitionen, Jobdefinitionen und andere Kontrollinformationen, die Ihnen helfen, Ihre AWS Glue-Umgebung zu verwalten. Er berechnet automatisch Statistiken und registriert Partitionen, um Anfragen zu Ihren Daten effizient und kostengünstig zu gestalten. Er unterhält auch einen umfangreichen Schemaversionsverlauf, damit Sie verstehen, wie sich Ihre Daten im zeitlichen Verlauf geändert haben.

Automatische Schema-Erkennung

AWS Glue-Datenausleseprogramme (sog. Crawler) verbinden sich mit Ihrem Quell- oder Zieldatenspeicher und durchlaufen eine priorisierte Liste von Klassifikatoren, um das Schema für Ihre Daten zu bestimmen und anschließend Metadaten in Ihrem AWS Glue Datenkatalog zu erstellen. Die Metadaten werden in Tabellen in Ihrem Datenkatalog gespeichert und für den Erstellungsprozess Ihrer ETL-Jobs verwendet. Sie können die Crawler anhand eines Zeitplans, On-Demand oder ereignisgesteuert auslösen, um sicherzustellen dass Ihre Metadaten aktuell sind.

Code-Generierung

AWS Glue generiert automatisch den Code zum Extrahieren, Transformieren und Laden Ihrer Daten. Verweisen Sie AWS Glue einfach auf Ihre Datenquelle und Ihr Datenziel und AWS Glue erstellt ETL-Skripte zum Transformieren, Glätten und Anreichern Ihrer Daten. Der Code wird in Scala oder Python erstellt und für Apache Spark geschrieben.

Bereinigen und Deduplizieren von Daten

AWS Glue hilft Ihnen, Daten zur Analyse zu bereinigen und aufzubereiten. Ein Machine-Learning-Transform namens FindMatches kann Datensätze deduplizieren und Übereinstimmungen ermitteln. Sie können AWS LakeFormation FindMatches etwa verwenden, um doppelte Datensätze in Ihrer Restaurantdatenbank zu finden, zum Beispiel, wenn ein Datensatz „Joe‘s Pizza“ unter „121 Main St.“ und ein anderer „Joseph‘s Pizzeria“ unter „121 Main“ aufführt. Sie müssen dafür nichts über Machine Learning wissen. FindMatches fordert Sie lediglich auf, Datensätze entweder als „übereinstimmend“ oder als „nicht übereinstimmend“ zu kennzeichnen. Das System erlernt dann Ihre Kriterien, nach denen Datensätze „übereinstimmen“ und erstellt einen ML Transform, den Sie zur Ermittlung doppelter Datensätze in einer Datenbank oder zum Abgleich von Datensätzen in zwei Datenbanken verwenden können.

Entwickler-Endpunkte

Wenn Sie sich dafür entscheiden, Ihren ETL-Code interaktiv zu entwickeln, stellt Ihnen AWS Glue Entwicklungsendpunkte zum Editieren, Debuggen und Testen des für Sie generierten Codes zur Verfügung. Sie können Ihre bevorzugte IDE oder Ihr Notebook verwenden. Sie können benutzerdefinierte Leser, Schreiber oder Transformationen schreiben und diese in Ihre AWS Glue ETL-Jobs und benutzerdefinierten Bibliotheken importieren. Über unser GitHub-Repository können Sie auch den Code anderer Entwickler verwenden oder Ihren Code teilen.

Flexibler Job-Scheduler

AWS Glue-Jobs können anhand eines Zeitplans, On-Demand oder ereignisgesteuert aktiviert werden. Sie können mehrere Jobs parallel starten oder Abhängigkeiten zwischen Jobs festlegen, um komplexe ETL-Pipelines aufzubauen. AWS Glue bearbeitet alle Abhängigkeiten zwischen Jobs, filtert schlechte Daten aus und startet Jobs neu, falls diese fehlschlagen. Alle Protokolle und Benachrichtigungen werden zu Amazon CloudWatch übertragen, so dass Sie von einem zentralen Service aus Kontrolle ausüben und Warnmeldungen erhalten können.

Product-Page_Standard-Icons_01_Product-Features_SqInk
Zur Seite mit den Preisen

Entdecken Sie die Preisoptionen für AWS Glue.

Weitere Informationen 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Registrieren Sie sich und erhalten Sie ein kostenloses Konto

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Beginnen Sie mit der Erstellen auf der Konsole

Beginnen Sie mit dem Erstellen von Amazon Glue auf der AWS Management Console.

Anmelden