Produkte›
Analytik›
AWS Glue

1 Million Objekte werden im kostenlosen AWS-Kontingent kostenlos gespeichert

AWS Glue

Alle Ihre Daten in beliebigem Umfang entdecken, vorbereiten und integrieren

Erste Schritte mit AWS Glue

Weitere Informationen über AWS Data Integration

Warum AWS Glue?

Der erste Schritt bei einem Analyse- oder ML-Projekt ist die Vorbereitung Ihrer Daten, um qualitativ hochwertige Ergebnisse zu erhalten. AWS Glue ist ein Serverless-Datenintegrationsservice, der die Datenaufbereitung einfacher, schneller und kostengünstiger macht. Sie können über 70 verschiedene Datenquellen entdecken und eine Verbindung dazu herstellen, Ihre Daten in einem zentralen Datenkatalog verwalten und ETL-Pipelines visuell erstellen, ausführen und überwachen, um Daten in Ihre Data Lakes zu laden.

Einführung in AWS Glue (01:54)

Vorteile von AWS Glue

Maßgeschneiderte Tools

Alle Datennutzer, von Entwicklern bis hin zu Geschäftsanwendern unterstützen

Skalieren On-Demand

Petabyte-Skala, nutzungsbasierte Abrechnung, beliebige Datengröße

Alles in einem

Vollständige Datenintegrationsfunktionen in einem serverlosen Service

Alle Workloads unterstützen

Flexible Unterstützung für ETL, ELT, Batch, Streaming und mehr, ohne Lock-In

Funktionsweise

AWS Glue ist ein Serverless-Datenintegrationsservice, der das Erkennen, Aufbereiten, Verschieben und Integrieren von Daten aus verschiedenen Quellen für Analysen, Machine Learning (ML) und Anwendungsentwicklung erleichtert.

Datenintegrations-Engine-Optionen
Wählen Sie Ihre bevorzugte Datenintegrations-Engine in AWS Glue, um Ihre Benutzer und Workloads zu unterstützen.

Das Diagramm zeigt, wie AWS-Glue-Benutzer aus Schnittstellenoptionen wählen können, um Workloads mit mehreren Datenintegrations-Engines zu erstellen. Vier Abschnitte werden angezeigt: einer auf der linken Seite, zwei in der Mitte und einer auf der rechten Seite.

Der erste Abschnitt auf der linken Seite heißt „Datenquellen“. Es umfasst die folgenden Datenquellen: „Amazon S3“, „Amazon DynamoDB“, „Datenbanken, die auf Amazon EC2 laufen“, „Datenbanken“ und „SaaS“.

Vom ersten Abschnitt aus zeigt ein Pfeil auf den mittleren Abschnitt am oberen Rand des Diagramms mit der Bezeichnung „Auswahl der Schnittstellen“. In diesem zweiten Abschnitt sind drei Punkte enthalten: „AWS Glue Studio“, „Amazon SageMaker Notebooks“ und „Notebooks und IDEs“.

Unter diesem zweiten Abschnitt heißt es: „Offene Schnittstellen unterstützen interaktive und Auftrags-Workloads“. Dieser Text enthält einen Pfeil, der auf den zuvor beschriebenen zweiten Abschnitt darüber verweist, und einen Pfeil, der auf den dritten Abschnitt darunter verweist.

Dieser dritte Abschnitt heißt „Datenintegrations-Engines“. Im Text heißt es: „Wählen Sie eine bevorzugte skalierbare Serverless-Datenverarbeitungs-Engine mit automatischer Skalierung und nutzungsabhängiger Preisberechnung“. Dieser Abschnitt enthält drei Engine-Namen: „AWS Glue for Ray“, „AWS Glue for Python Shell“ und „AWS Glue for Apache Spark“.

Der vierte Abschnitt erscheint rechts vom zweiten Abschnitt mit einem Pfeil, der vom zweiten Abschnitt zum vierten Abschnitt zeigt. Der vierte Abschnitt lautet: „Daten in Data Lakes und Data Warehouses erstellen und laden“. Dieser Abschnitt enthält auch drei Punkte: „Amazon Redshift“, „Data Lakes“ und „Data Warehouses“.

Zum Vergrößern anklicken
Ereignisgesteuertes ETL
AWS Glue kann Ihre Extraktions-, Transformations- und Ladeaufträge (ETL) ausführen, sobald neue Daten eintreffen. Sie können AWS Glue zum Beispiel so konfigurieren, dass Ihre ETL-Aufträge ausgeführt werden, sobald neue Daten im Amazon Simple Storage Service (S3) verfügbar sind.
AWS-Glue-Datenkatalog
Sie können mithilfe des Datenkatalogs schnell mehrere AWS-Datensätze durchsuchen, ohne die Daten zu verschieben. Die Daten sind nach der Katalogisierung sofort zum Durchsuchen und Abfragen mit Amazon Athena, Amazon EMR und Amazon Redshift Spectrum bereit.
Codefreie ETL-Aufträge
AWS Glue Studio macht es einfacher, AWS-Glue-ETL-Aufgaben visuell zu erstellen, auszuführen und zu überwachen. Sie können in einem Drag-and-Drop-Editor ETL-Aufgaben erstellen, die Daten verschieben und transformieren, und AWS Glue erzeugt den Code automatisch.
Datenqualität verwalten und überwachen
AWS Glue Data Quality automatisiert die Erstellung, Verwaltung und Überwachung von Datenqualitätsregeln, um eine hohe Datenqualität in Ihren Data Lakes und Pipelines zu gewährleisten.

Das Diagramm zeigt, wie AWS Glue Data Quality verwendet werden kann, um Regelempfehlungen zu erstellen, die Datenqualität zu überwachen und Warnungen zu senden, wenn sich die Datenqualität verschlechtert. Drei Abschnitte werden von links nach rechts angezeigt.

Der erste Abschnitt enthält eine Illustration von AWS Glue Data Catalog und AWS Glue ETL. Unter AWS Glue Data Catalog heißt es: „Katalogisieren Sie alle Datensätze in Ihren Data Lakes“. Unter AWS Glue ETL heißt es: „Integrieren und transformieren Sie Daten aus unterschiedlichen Datenquellen“.

Der zweite Abschnitt trägt den Titel „AWS-Glue-Datenqualität“. In diesem Abschnitt gibt es drei Symbole. Das erste ist eine Checkliste. Darunter steht: „Empfehlungen für Datenqualitätsregeln. Erste Schritte im Handumdrehen mit automatischen Empfehlungen für Datenqualitätsregeln“. Das zweite Symbol ist ein Stift. Darunter steht: „Vorkonfigurierte Datenqualitätsregeln. Bearbeiten oder ergänzen Sie Empfehlungen mit vorkonfigurierten Datenqualitätsregeln“. Das dritte Symbol ist eine Glocke. Darunter steht: „Warnungen und Aktionen. Fügen Sie Warnungen und Aktionen hinzu, die bei einer Verschlechterung der Datenqualität durchgeführt werden sollen.

Im dritten Bereich sind zwei Symbole übereinander angeordnet. Das erste Symbol ist ein Balkendiagramm. Darunter steht: „Metriken. Nutzen Sie die Metriken zur Datenqualität, um sichere Geschäftsentscheidungen zu treffen“. Das zweite Symbol ist ein Warnzeichen. Darunter steht: „Warnungen. Verwenden Sie Warnungen, um benachrichtigt zu werden, wenn sich die Qualität verschlechtert, und ergreifen Sie Maßnahmen, um die Daten zu korrigieren.“

Zum Vergrößern anklicken
Datenaufbereitung
Mit AWS Glue DataBrew können Sie Daten direkt aus Ihrem Data Lake, Data Warehouses und Datenbanken, einschließlich Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora und Amazon Relational Database Service (RDS), untersuchen und mit ihnen experimentieren. Sie können aus über 250 vorgefertigten Transformationen in DataBrew wählen, um Datenaufbereitungsaufgaben wie das Filtern von Anomalien, die Standardisierung von Formaten und die Korrektur ungültiger Werte zu automatisieren.

Anwendungsfälle

Interaktives Erkunden, Experimentieren und Verarbeiten von Daten

Mit interaktiven AWS-Glue-Sitzungen können Dateningenieure Daten interaktiv erkunden und vorbereiten, indem sie die integrierte Entwicklungsumgebung (IDE) oder das Notebook ihrer Wahl verwenden.

Weitere Informationen zu interaktiven AWS-Glue-Sitzungen

Daten effizient entdecken

Identifizieren Sie schnell Daten in AWS, lokalen und anderen Clouds und stellen Sie sie dann sofort für Abfragen und Transformationen zur Verfügung.

Weitere Informationen zum AWS-Glue-Datenkatalog

Unterstützung verschiedener Verarbeitungs-Frameworks und Workloads

Einfachere Unterstützung verschiedener Datenverarbeitungs-Frameworks wie ETL und ELT sowie verschiedener Workloads, einschließlich Batch, Micro-Batch und Streaming.

Weitere Informationen zum Streaming von ETL-Aufträgen

Die Entwicklung von ETL-Pipelines vereinfachen

Beseitigen Sie das Infrastrukturmanagement mit automatischer Bereitstellung und Worker-Management und konsolidieren Sie all Ihre Datenintegrationsanforderungen in einem einzigen Service.

Weitere Information zu AWS Glue Auto Scaling

Neuerungen

Keine Ergebnisse gefunden

1 …

…

Erste Schritte mit AWS Glue

AWS Glue kostenlos testen

Mit AWS Glue entwickeln

Daten integrieren

Entdecken Sie das Entwicklerhandbuch

Mehr von AWS erkunden