AWS Glue

Einfacher, flexibler und kosteneffektiver ETL-Service

AWS Glue ist ein vollständig verwalteter ETL-Service (Extrahieren, Transformieren und Laden), der Kunden das Vorbereiten und Laden ihrer Daten zu Analysezwecken erleichtert. Sie können einen ETL-Auftrag mit nur wenigen Klicks in der AWS Management Console erstellen und ausführen. Indem Sie AWS Glue einfach auf Ihre in AWS gespeicherten Daten verweisen, werden Ihre Daten von der Anwendung erkannt und die zugehörigen Metadaten (z. B. Tabellendefinitionen und Schemata) im AWS Glue-Datenkatalog gespeichert. Sie können Ihre Daten unmittelbar nach der Katalogisierung durchsuchen, abfragen und für ETL nutzen.

Einführung von AWS Glue (1:47)

Vorteile

Weniger Aufwand

AWS Glue ist mit verschiedenen AWS-Services integrierbar, was für Sie das Onboarding erleichtert. AWS Glue unterstützt von sich aus Daten, die in Amazon Aurora und allen anderen Amazon RDS-Engines, Amazon Redshift und Amazon S3 gespeichert sind, sowie gängige Datenbank-Engines und Datenbanken in Ihrer Virtual Private Cloud (Amazon VPC), die auf Amazon EC2 läuft.

Kostengünstig

AWS Glue ist serverlos. Sie brauchen keine Infrastruktur bereitzustellen oder zu verwalten. AWS Glue verwaltet die Bereitstellung, Konfiguration und Skalierung der Ressourcen, die zum Ausführen Ihrer ETL-Aufträge in einer vollständig verwalteten, skalierten Apache Spark-Umgebung erforderlich sind. Sie bezahlen nur für die während der Ausführung Ihrer Aufträge genutzten Ressourcen.

Mehr Leistung

AWS Glue automatisiert viele der Aufgaben hinsichtlich der Erstellung, Verwaltung und Ausführung von ETL-Aufträgen. AWS Glue scannt Ihre Datenquellen, identifiziert Datenformate und schlägt Schemata und Transformationen vor. AWS Glue generiert automatisch den Code zum Ausführen von Datentransformationen sowie zum Laden Ihrer Daten.

 

 

Funktionsweise

Wählen Sie eine Datenquelle und ein Ziel aus. AWS Glue generiert ETL-Code in Scala oder Python, um Daten aus der Quelle zu extrahieren, entsprechend dem Zielschema zu transformieren und in das Ziel zu laden. Sie können diesen Code über die Konsole in Ihrer bevorzugten IDE oder einem beliebigen Notizbuch bearbeiten, debuggen und testen.

Schritt 1: Erstellen eines Datenkatalogs
screenshot-glue-step1-data-catalog2b

Registrieren Sie zunächst in der AWS Management Console Ihre Datenquellen. AWS Glue scannt Ihre Datenquellen und erstellt einen Datenkatalog anhand von vordefinierten Klassifizierungen für viele gängige Quellformate und Datentypen wie JSON, CSV, Parquet usw.

Schritt 2: Erstellen und Bearbeiten von Transformationen
screenshot-glue-step2-etl-generation4

Wählen Sie als Nächstes eine Datenquelle und ein Ziel aus. AWS Glue generiert ETL-Code in Scala oder Python, um Daten aus der Quelle zu extrahieren, entsprechend dem Zielschema zu transformieren und in das Ziel zu laden. Sie können diesen Code über die Konsole in Ihrer bevorzugten IDE oder einem beliebigen Notizbuch bearbeiten, debuggen und testen.

Schritt 3: Planen und Ausführen von Aufträgen
screenshot-glue-step3-orchestration2

AWS Glue erleichtert es, wiederkehrende ETL-Aufträge zu planen, mehrere Aufträge zu verketten oder Aufträge anderer Services wie AWS Lambda nach Bedarf aufzurufen. AWS Glue verwaltet die Abhängigkeiten zwischen Ihren Aufträgen, skaliert automatisch zugrundeliegende Ressourcen und führt fehlgeschlagene Aufträge erneut aus.

Besuchen Sie die Webseite mit den AWS Glue-Funktionen oder informieren Sie sich in unserer Produktdokumentation.

Anwendungsfälle

Abfrage eines Amazon S3-Datensees

Datenseen werden immer häufiger zum Speichern und Analysieren strukturierter und unstrukturierter Daten genutzt. Wenn Sie Ihren eigenen Amazon S3-Datensee erstellen möchten, kann AWS Glue alle Ihre Daten sofort für die Analytik zur Verfügung stellen, ohne die Daten zu verschieben.

Um in wenigen Tagen einen sicheren Datensee zu erstellen, erfahren Sie mehr über die AWS Lake Formation.

product-page-diagram_Glue_Queries-Against-an-Amazo-S3-Data-Lake

Analysieren von Protokolldaten in Ihrem Data Warehouse

Bereiten Sie Ihren Clickstream vor, oder verarbeiten Sie Protokolldaten zu Analysezwecken, indem Sie Ihre Datensätze mit AWS Glue bereinigen, normalisieren und optimieren. AWS Glue generiert das Schema für Ihre teilweise strukturierten Daten, erstellt ETL-Code zum Transformieren, Bereinigen und Optimieren Ihrer Daten und lädt Ihr Data Warehouse regelmäßig neu.

product-page-diagram_Glue_Analyze-Log-Data-in-Data-Warehouse

Einheitliche Ansicht Ihrer Daten in mehreren Datenspeichern

Sie können mithilfe des AWS Glue-Datenkatalogs schnell mehrere AWS-Datensätze durchsuchen, ohne die Daten zu verschieben. Die Daten sind nach der Katalogisierung sofort zum Durchsuchen und Abfragen mit Amazon Athena, Amazon EMR und Amazon Redshift Spectrum bereit.

product-page-diagram_Glue_Unified-View-of-Data-Across-Multiple-Data-Stores

Ereignisgesteuerte ETL-Pipelines

AWS Glue kann Ihre ETL-Aufträge basierend auf einem Ereignis wie dem Abrufen eines neuen Datensatzes ausführen. Sie können zum Auslösen Ihre ETL-Aufträge beispielsweise eine AWS Lambda-Funktion nutzen, um sie auszuführen, sobald in Amazon S3 neue Daten verfügbar sind. Darüber hinaus haben Sie die Möglichkeit, den neuen Datensatz im Rahmen Ihrer ETL-Aufträge im AWS Glue-Datenkatalog zu speichern.

product-page-diagram_Glue_Event-driven-ETL-Pipelines

Erste Schritte mit AWS

icon1

Registrieren Sie sich, um ein AWS-Konto zu erstellen

Sie erhalten sofort Zugriff auf das kostenlose Kontingent für AWS.
icon2

Erfahren Sie mehr in unseren zehnminütigen praktischen Anleitungen

Entdecken und lernen Sie mit einfachen Tutorials.
icon3

Beginnen Sie die Erstellung mit AWS

Entwickeln Sie mit Hilfe von schrittweisen Anleitungen, die Ihnen helfen, Ihr AWS-Projekt zu starten.

Weitere Informationen zu AWS Glue

Funktionsübersicht anzeigen
Bereit zum Entwickeln?
Erste Schritte mit AWS Glue
Haben Sie Fragen?
Kontaktieren Sie uns