AWS Glue

Einfacher, flexibler und kosteneffektiver ETL-Service

AWS Glue ist ein vollständig verwalteter ETL-Service (Extrahieren, Transformieren und Laden), der Kunden das Vorbereiten und Laden ihrer Daten zu Analysezwecken erleichtert. Sie können einen ETL-Auftrag mit nur wenigen Klicks in der AWS Management Console erstellen und ausführen. Indem Sie AWS Glue einfach auf Ihre in AWS gespeicherten Daten verweisen, werden Ihre Daten von der Anwendung erkannt und die zugehörigen Metadaten (z. B. Tabellendefinitionen und Schemata) im AWS Glue-Datenkatalog gespeichert. Sie können Ihre Daten unmittelbar nach der Katalogisierung durchsuchen, abfragen und für ETL nutzen. AWS Glue generiert den Code zum Ausführen von Datentransformationen sowie zum Laden Ihrer Daten.

Sie haben die Möglichkeit, den von AWS Glue generierten Code anzupassen, wiederzuverwenden und zu portieren. Sobald Ihr ETL-Auftrag bereit ist, können Sie dessen Ausführung innerhalb der vollständig verwalteten, skalierten Apache Spark-Umgebung von AWS Glue planen. AWS Glue bietet eine flexibles Planungstool mit Abhängigkeitsauflösung, Auftragsüberwachung und Benachrichtigungsfunktion.

Da AWS Glue keinen Server benötigt, erübrigt sich das Anschaffen, Einrichten und Verwalten einer besonderen Ausstattung. AWS Glue stellt automatisch die für den Auftrag erforderliche Umgebung bereit. Kunden zahlen nur für die zum Ausführen von ETL-Aufträgen verbrauchten Rechenressourcen. Mit AWS Glue lassen sich Daten binnen weniger Minuten zu Analysezwecken bereitstellen.

Einführung von AWS Glue

Nutzen

Ganz problemlos

AWS Glue automatisiert viele der Aufgaben hinsichtlich der Erstellung, Verwaltung und Ausführung von ETL-Aufträgen. AWS Glue scannt Ihre Datenquellen, identifiziert Datenformate und schlägt Schemata und Transformationen vor. AWS Glue generiert automatisch den Code zum Ausführen von Datentransformationen sowie zum Laden Ihrer Daten.

Integriert

AWS Glue ist mit verschiedenen AWS-Services integrierbar, was für Sie das Onboarding erleichtert. AWS Glue unterstützt standardmäßig Daten, die in Amazon Aurora und allen anderen AMazon RDS-Engines, Amazon Redshift und Amazon S3 gespeichert sind, sowie MySQL- und PostgreSQL-Datenbanken in Ihrer virtuellen privaten Cloud (Amazon VPC), die auf Amazon EC2 läuft. AWS Glue ermöglicht die vorkonfigurierte Integration in Amazon Athena, Amazon EMR, Amazon Redshift Spectrum sowie jegliche mit Apache Hive Metastore kompatiblen Anwendungen.

Serverlos

AWS Glue ist serverlos. Sie brauchen keine Infrastruktur bereitzustellen oder zu verwalten. AWS Glue verwaltet die Bereitstellung, Konfiguration und Skalierung der Ressourcen, die zum Ausführen Ihrer ETL-Aufträge in einer vollständig verwalteten, skalierten Apache Spark-Umgebung erforderlich sind. Sie bezahlen nur für die während der Ausführung Ihrer Aufträge genutzten Ressourcen.

Entwicklerfreundlich

AWS Glue generiert ETL-Code, der mit vertrauter Technologie von Scala, Python und Apache Spark angepasst, wiederverwendet und portiert werden kann. Sie können auch benutzerdefinierte Lese-, Schreib- und Transformationsprogramme in Ihren Glue-ETL-Code importieren. Da der von AWS Glue generierte Code auf offenen Frameworks basiert, sind Sie nicht an einen einzelnen Anbieter gebunden. Sie können ihn beliebig verwenden.

Funktionsweise

Wählen Sie eine Datenquelle und ein Ziel aus. AWS Glue generiert ETL-Code in Scala oder Python, um Daten aus der Quelle zu extrahieren, entsprechend dem Zielschema zu transformieren und in das Ziel zu laden. Sie können diesen Code über die Konsole in Ihrer bevorzugten IDE oder einem beliebigen Notizbuch bearbeiten, debuggen und testen.

Schritt 1: Erstellen eines Datenkatalogs
screenshot-glue-step1-data-catalog2b

Registrieren Sie zunächst in der AWS Management Console Ihre Datenquellen. AWS Glue scannt Ihre Datenquellen und erstellt einen Datenkatalog anhand von vordefinierten Klassifizierungen für viele gängige Quellformate und Datentypen wie JSON, CSV, Parquet usw.

Schritt 2: Erstellen und Bearbeiten von Transformationen
screenshot-glue-step2-etl-generation4

Wählen Sie als Nächstes eine Datenquelle und ein Ziel aus. AWS Glue generiert ETL-Code in Scala oder Python, um Daten aus der Quelle zu extrahieren, entsprechend dem Zielschema zu transformieren und in das Ziel zu laden. Sie können diesen Code über die Konsole in Ihrer bevorzugten IDE oder einem beliebigen Notizbuch bearbeiten, debuggen und testen.

Schritt 3: Planen und Ausführen von Aufträgen
screenshot-glue-step3-orchestration2

AWS Glue erleichtert es, wiederkehrende ETL-Aufträge zu planen, mehrere Aufträge zu verketten oder Aufträge anderer Services wie AWS Lambda nach Bedarf aufzurufen. AWS Glue verwaltet die Abhängigkeiten zwischen Ihren Aufträgen, skaliert automatisch zugrundeliegende Ressourcen und führt fehlgeschlagene Aufträge erneut aus.

Besuchen Sie die Webseite mit den Produktdetails zu AWS Glue, oder informieren Sie sich in unserer Produktdokumentation.

Anwendungsfälle

Abfrage eines Amazon S3-Datensees

Datenseen werden immer häufiger zum Speichern und Analysieren strukturierter und unstrukturierter Daten genutzt. Wenn Sie einen Amazon S3-Data Lake verwenden, kann AWS Glue alle Ihre Daten sofort zu Analysezwecken bereitstellen, ohne sie zu verschieben.

product-page-diagram_Glue_Queries-Against-an-Amazo-S3-Data-Lake

Analysieren von Protokolldaten in Ihrem Data Warehouse

Bereiten Sie Ihren Clickstream vor, oder verarbeiten Sie Protokolldaten zu Analysezwecken, indem Sie Ihre Datensätze mit AWS Glue bereinigen, normalisieren und optimieren. AWS Glue generiert das Schema für Ihre teilweise strukturierten Daten, erstellt ETL-Code zum Transformieren, Bereinigen und Optimieren Ihrer Daten und lädt Ihr Data Warehouse regelmäßig neu.

product-page-diagram_Glue_Analyze-Log-Data-in-Data-Warehouse

Einheitliche Ansicht Ihrer Daten in mehreren Datenspeichern

Sie können mithilfe des AWS Glue-Datenkatalogs schnell mehrere AWS-Datensätze durchsuchen, ohne die Daten zu verschieben. Die Daten sind nach der Katalogisierung sofort zum Durchsuchen und Abfragen mit Amazon Athena, Amazon EMR und Amazon Redshift Spectrum bereit.

product-page-diagram_Glue_Unified-View-of-Data-Across-Multiple-Data-Stores

Ereignisgesteuerte ETL-Pipelines

AWS Glue kann Ihre ETL-Aufträge basierend auf einem Ereignis wie dem Abrufen eines neuen Datensatzes ausführen. Sie können zum Auslösen Ihre ETL-Aufträge beispielsweise eine AWS Lambda-Funktion nutzen, um sie auszuführen, sobald in Amazon S3 neue Daten verfügbar sind. Darüber hinaus haben Sie die Möglichkeit, den neuen Datensatz im Rahmen Ihrer ETL-Aufträge im AWS Glue-Datenkatalog zu speichern.

product-page-diagram_Glue_Event-driven-ETL-Pipelines

Erste Schritte mit AWS

icon1

Registrieren Sie sich für ein AWS-Konto

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent.
icon2

Erfahren Sie mehr in unseren zehnminütigen praktischen Anleitungen

Entdecken und lernen mit einfachen Tutorials.
icon3

Beginnen Sie die Erstellung mit AWS

Entwickeln Sie mit Hilfe von schrittweisen Anleitungen, die Ihnen helfen, Ihr AWS-Projekt zu starten.

Weitere Informationen zu AWS Glue

Funktionsübersicht anzeigen
Bereit zum Entwickeln?
Erste Schritte mit AWS Glue
Haben Sie Fragen?
Kontakt