F: Was ist AWS Glue?

AWS Glue ist ein vollständig verwalteter, Pay-as-you-go-Service zum Extrahieren, Transformieren und Laden (ETL) von Daten, der die zeitaufwändigen Schritte der Datenvorbereitung für die Analyse automatisiert. Über den Glue Datenkatalog entdeckt und profiliert AWS Glue Ihre Daten, empfiehlt und generiert ETL-Code, um Ihre Quelldaten in Ziel-Schemata zu transformieren und führt ETL-Jobs in einer vollständig verwalteten, skalierbaren Apache Spark-Umgebung durch, um Ihre Daten in den Zielort zu laden. AWS Glue ermöglicht Ihnen auch, komplexe Datenflüsse einzurichten, zu arrangieren und zu überprüfen.

F: Was sind die ersten Schritte mit AWS Glue?

Für die ersten Schritte mit AWS Glue melden Sie sich einfach an der AWS Management Console an und navigieren Sie unter der Kategorie "Analytics" zu "Glue". Sie können einem der geführten Lernprogramme folgen, die Schritt für Schritt durch ein Beispiel eines Anwendungsfalls für AWS Glue führen. Zudem steht ETL-Beispielscode in unseremGitHub-Repository unter AWS Labs zur Verfügung.

F: Was sind die wichtigsten Komponenten von AWS Glue?

AWS Glue besteht aus einem Datenkatalog, der ein zentrales Metadaten-Repository darstellt, eine ETL-Engine, die automatisch Python-Code generieren kann und einem flexiblen Scheduler, der die Abhängigkeitsresolution, Jobüberprüfung und Neuversuche durchführt. Gemeinsam automatisieren diese Komponenten einen großen Anteil der undifferenzierten Schwerlastarbeit, das im Zusammenhang mit der Entdeckung, Kategorisierung, Säuberung, Anreicherung und Verschiebung von Daten anfällt, so dass Sie mehr Zeit für die Datenanalyse zur Verfügung haben.

F: Wann sollte ich AWS Glue einsetzen?

Sie sollten AWS Glue verwenden, wenn Sie Eigenschaften der in Ihrem Besitz befindlichen Daten entdecken, transformieren und für die Analyse vorbereiten möchten. Glue kann automatisch strukturierte und halb-strukturierte Daten entdecken, die in Ihrem Datensee auf Amazon S3, Ihrem Data-Warehouse in Amazon Redshift und verschiedenen Datenbanken, die auf AWS laufen, gespeichert sind. Glue bietet über den Glue Datenkatalog eine einheitliche Ansicht Ihrer Daten, die für ETL, Anfrage- und Berichterstellung mit Diensten wie Amazon Athena, Amazon EMR und Amazon Redshift Spectrum zur Verfügung stehen. Glue generiert automatisch Python-Code für Ihre ETL-Jobs, die Sie mit den Ihnen bekannten Tools weiter anpassen können. AWS Glue ist serverlos, es gibt also keine Rechenressourcen, die konfiguriert und verwaltet werden müssen.

F: Welche Datenquellen unterstützt AWS Glue?

AWS Glue unterstützt standardmäßig in Amazon Aurora, Amazon RDS für MySQL, Amazon RDS für Oracle, Amazon RDS für PostgreSQL, Amazon RDS für SQL Server, Amazon Redshift und Amazon S3 sowie in MySQL, Oracle, Microsoft SQL Server und PostgreSQL-Datenbanken in Virtual Private Cloud (Amazon VPC) gespeicherte Daten, die über Amazon EC2 ausgeführt werden. Auf die im AWS Glue Datenkatalog gespeicherten Metadaten kann leicht von Amazon Athena, Amazon EMR und Amazon Redshift Spectrum aus zugegriffen werden. Sie können auch benutzerdefinierten PySpark-Code schreiben und benutzerdefinierte Bibliotheken in Ihre Glue ETL-Jobs importieren, und so auf Datenquellen zugreifen, die standardmäßig nicht von AWS Glue unterstützt werden. Weitere Einzelheiten zum Importieren von benutzerdefinierten Bibliotheken finden Sie in unserer Dokumentation.

Zurück zum Seitenanfang »


F: Was ist der AWS Glue Datenkatalog?

Der AWS Glue Datenkatalog ist ein zentrales Repository für die Speicherung struktureller und operativer Metadaten für alle Ihre Datenkomponenten. Sie können für einen gegebenen Datensatz die Tabellendefinition und den physischen Ort speichern, geschäftsrelevante Attribute hinzufügen sowie nachverfolgen, wie diese Daten sich mit der Zeit verändert haben.

Der AWS Glue Datenkatalog ist mit dem Apache Hive Metastore kompatibel und ein Drop-in-Ersatz für den Apache Hive Metastore für Big-Data-Anwendungen, die auf Amazon EMR laufen. Weitere Informationen zum Einrichten Ihres EMR-Clusters für die Verwendung des AWS Glue Datenkatalogs als Apache Hive Metastore finden Sie hier.

Der AWS Glue Datenkatalog bietet auch eine Out-of-box-Integration mit Amazon Athena, Amazon EMR und Amazon Redshift Spectrum. Sobald Sie Ihre Tabellendefinitionen zum Glue Datenkatalog hinzugefügt haben, stehen sie für ETL zur Verfügung und sind auch leicht verfügbar für Amazon Athena, Amazon EMR und Amazon Redshift Spectrum, so dass Sie einen gemeinsamen Blick auf Ihren Daten zwischen diesen Services haben.

F: Wie bekomme ich meine Metadaten in den AWS Glue Datenkatalog?

AWS Glue bietet verschiedene Möglichkeiten, den AWS Glue Datenkatalog mit Metadaten zu füllen. Glue-Datenausleseprogramme (Crawler) scannen verschiedene in Ihrem Besitz befindliche Datenspeicher, schließen daraus automatisch auf Schemata und die Partitionsstruktur und füllen den Glue Datenkatalog mit entsprechenden Tabellendefinitionen und Statistiken. Sie können auch die regelmäßige Durchführung von Crawlern planen, so dass Ihre Metadaten immer aktuell sind und mit den zugrundeliegenden Daten synchronisiert sind. Alternativ können Sie manuell Tabellendetails hinzufügen und aktualisieren, indem Sie die AWS Glue Console verwenden oder den API aufrufen. Sie können auch Hive DDL-Statements über die Amazon Athena Console oder einen Hive-Client auf einem Amazon EMR-Cluster durchführen. Und schließlich können Sie mithilfe unserer Import-Skripts einen Massenimport dieser Daten in den AWS Glue Datenkatalog durchführen, wenn Sie bereits einen dauerhaften Apache Hive Metastore haben.

F: Was sind AWS Glue-Crawler?

Ein AWS Glue-Crawler verbindet sich mit einem Datenspeicher, durchläuft eine priorisierte Liste von Klassifikatoren, um das Schema Ihrer Daten und andere Statistiken zu extrahieren und füllt dann den Glue Datenkatalog mit diesen Metadaten. Crawler können regelmäßig ausgeführt werden, um neu verfügbare Daten sowie Änderungen an bestehenden Daten einschließlich Änderungen an Tabellendefinitionen zu ermitteln. Mit Crawlern werden automatisch neue Tabellen sowie Partitionen zu bestehenden Tabellen und neue Versionen von Tabellendefinitionen hinzugefügt. Sie können Glue-Crawler individuell anpassen, um Ihre eigenen Dateitypen zu klassifizieren.

F: Wie importiere ich Daten aus meinem bestehenden Apache Hive Metastore in den AWS Glue Datenkatalog?

Sie führen einfach einen ETL-Job durch, der Ihren Apache Hive Metastore ausliest, die Daten in einem Zwischenformat an Amazon S3 überträgt und dann diese Daten in den Glue Datenkatalog importiert.

F: Muss ich meinen Apache Hive Metastore behalten, wenn ich meine Metadaten im AWS Glue Datenkatalog speichere?

Nein. Der AWS Glue Datenkatalog ist mit dem Apache Hive Metastore kompatibel. Sie können auf den Glue Datenkatalog-Endpunkt verweisen und ihn als Ersatz für den Apache Hive Metastore verwenden. Weitere Informationen zum Einrichten Ihres Clusters für die Verwendung des AWS Glue Datenkatalogs als Apache Hive Metastore finden Sie hier in unserer Dokumentation.

F: Wenn ich bereits Amazon Athena oder Amazon Redshift Spectrum verwende und Tabellen im Datenkatalog von Amazon Athena habe, wie kann ich damit beginnen, den AWS Glue Datenkatalog als Standard-Repository für Metadaten zu verwenden?

Bevor Sie beginnen können, den AWS Glue Datenkatalog als Standard-Repository für Metadaten zwischen Amazon Athena, Amazon Redshift Spectrum und AWS Glue zu verwenden, müssen Sie Ihren Amazon Athena-Datenkatalog auf den AWS Glue Datenkatalog upgraden. Die für das Upgrade erforderlichen Schritte sind hier ausführlich erläutert.

Zurück zum Seitenanfang »


F: Wie kann ich den von AWS-Glue generierten ETL-Code anpassen?

Das Skript-Empfehlungssystem des ETL-Skripts von AWS Glue generiert PySpark-Code. Es verwendet die benutzerdefinierte ETL-Bibliothek von Glue, um den Zugriff auf Datenquellen zu vereinfachen und die Jobausführung zu verwalten. Weitere Einzelheiten zur Bibliothek finden Sie in unser Dokumentation. Mithilfe der benutzerdefinierten Bibliothek von AWS Glue können Sie ETL-Code schreiben oder beliebigen Spark-Code in Python (PySpark-Code) schreiben, indem Sie die Inline-Editierfunktion mithilfe des AWS Glue Console Skript-Editors verwenden, den selbstgenerierten Code herunterladen und ihn in Ihrer eigenen IDE editieren. Sie können auch mit einem der vielen Beispiele beginnen, die in unserem GitHub-Repository gehostet werden und diesen Code anpassen.

F: Kann ich benutzerdefinierte Bibliotheken als Teil meines ETL-Skripts importieren?

Ja. Sie können benutzerdefinierte PySpark-Bibliotheken in Ihren AWS Glue ETL-Job importieren. Weitere Einzelheiten finden Sie hier in unserer Dokumentation.

F: Kann ich meinen eigenen Code mitbringen?

Ja. Sie können Ihren eigenen Code mithilfe der ETL-Bibliothek von AWS Glue schreiben oder Ihren eigenen PySpark-Code schreiben und ihn zu einem Glue ETL-Job hochladen. Weitere Einzelheiten finden Sie hier in unserer Dokumentation.

F: Wie kann ich meinen ETL-Code mithilfe meiner eigenen IDE entwickeln?

Sie können Entwicklungsendpunkte erstellen, die Ihnen Möglichkeiten bieten, Ihre Notebooks und IDEs zu verbinden, und sich mit diesen verbinden.

F: Wie kann ich mithilfe von mehreren Jobs in AWS Glue einen durchgehenden ETL-Workflow generieren?

Zusätzlich zur ETL-Bibliothek und der Code-Erstellung bietet AWS Glue einen stabilen Satz von Orchestrierungs-Funktionen, die Ihnen ermöglichen, Abhängigkeiten zwischen mehreren Jobs zu verwalten, um durchgehende ETL-Workflows zu erstellen. AWS Glue ETL-Jobs können entweder nach einem Zeitplan oder durch ein Ereignis eines abgeschlossene Jobs ausgelöst werden. Wenn ein Ereignis eines abgeschlossenen Jobs der Auslöser ist, können mehrere Jobs parallel oder nacheinander ausgelöst werden. Sie können auch einen oder mehrere Glue-Jobs von einer externen Quelle (z. B. eine AWS Lambda-Funktion) auslösen.

F: Wie kontrolliert AWS Glue Abhängigkeiten?

AWS Glue verwaltet Abhängigkeiten zwischen zwei oder mehr Jobs oder Abhängigkeiten von externen Ereignissen durch die Verwendung von Triggern. Trigger können einen oder mehrere Jobs beobachten sowie einen oder mehrere Jobs aktivieren. Sie können entweder einen geplanten Trigger einsetzen, der Jobs regelmäßig aktiviert, oder einen On-Demand-Trigger oder einen Trigger bei Job-Abschluss.

F: Wie kontrolliert AWS Glue Fehler?

AWS Glue kontrolliert die Jobereignis-Messgrößen und Fehler und überträgt alle Meldungen an Amazon CloudWatch. Mit Amazon CloudWatch können Sie zahlreiche Aktionen konfigurieren, die auf Basis spezifischer Meldungen von AWS Glue ausgelöst werden. Wenn Sie zum Beispiel eine Fehler- oder Erfolgsmeldung von Glue erhalten, können Sie eine AWS Lambda-Funktion auslösen. Glue verfügt auch über ein Standardverhalten für Neuversuche, das bei Fehlern immer drei Neuversuche startet, bevor eine Fehlermeldung ausgesendet wird.

F: Kann ich meine bestehenden ETL-Jobs mit AWS Glue durchführen?

Ja. Sie können Ihren bestehenden PySpark-Code auf Amazon Glue durchführen. Laden Sie einfach den Code in Amazon S3 und erstellen Sie einen oder mehrere Jobs, die diesen Code verwenden. Sie können denselben Code für mehrere Jobs verwenden, in dem Sie diese auf den gleichen Code-Speicherort auf Amazon S3 verweisen.

F: Wie kann ich AWS Glue für ETL-Streaming-Daten verwenden?

AWS Glue ETL ist Batch-orientiert und Sie können Ihre ETL-Jobs mit einem Mindestabstand von 5 Minuten planen. Während Mikro-Batches verarbeitet werden können, ist eine Verarbeitung von Streaming-Daten nicht möglich. Wenn Ihr Anwendungsfall es erfordert, dass Sie ETL-Jobs während des Streamens von Daten durchführen, können Sie den ersten Teil Ihres ETL-Jobs mit Amazon Kinesis, Amazon Kinesis Firehose oder Amazon Kinesis Analytics durchführen und die Daten dann entweder auf Amazon S3 oder Amazon Redshift speichern und einen Glue ETL-Job auslösen, der diesen Datensatz aufnimmt, und die Anwendung weiterer Transformationen an diesen Daten fortführt.

F: Muss ich sowohl den AWS Glue Datenkatalog als auch Glue ETL anwenden, um den Service zu nutzen?

Nein. Wir glauben zwar, dass die Anwendung des AWS Glue Datenkatalogs zusammen mit ETL eine durchgehende ETL-Erfahrung bietet, sie können aber auch nur eine der beiden Komponenten unabhängig von der Anwendung der anderen Komponenten verwenden.

Zurück zum Seitenanfang »


F: Wann sollte ich AWS Glue einsetzen und wann AWS Data Pipeline?

AWS Glue bietet einen verwalteten ETL-Service, der in einer serverlosen Apache Spark-Umgebung läuft. Dies macht es möglich, dass Sie sich auf Ihren ETL-Job konzentrieren können und sich keine Gedanken über die Konfiguration und Verwaltung der zugrundeliegenden Rechenressourcen machen müssen. AWS Glue hat einen "Daten-zuerst"-Ansatz und ermöglicht Ihnen, sich auf die Dateneigenschaften und Datenmanipulation zu konzentrieren, um die Daten in eine Form zu bringen, mithilfe derer Sie Geschäftseinblicke erhalten. AWS Glue verfügt über einen integrierten Datenkatalog, der die Metadaten für ETL sowie Abfragen über Amazon Athena und Amazon Redshift Spectrum verfügbar macht.

AWS Data Pipeline bietet einen verwalteten Orchestrierungs-Service, der Ihnen größere Flexibilität in Bezug auf die Ausführungsumgebung, Zugriff und Kontrolle über die Rechenressourcen, mit denen Ihr Code läuft, sowie den eigentlichen Code für die Datenverarbeitung bietet. AWS Data Pipeline startet Rechenressourcen in Ihrem Konto, die Ihnen den direkten Zugriff auf die Amazon EC2-Instanzen oder Amazon EMR-Cluster ermöglichen.

Zudem basieren AWS Glue ETL-Jobs auf PySpark. Wenn Ihr Anwendungsfall erfordert, dass Sie eine andere Engine als Apache Spark verwenden oder wenn Sie einen heterogenen Satz von Jobs durchführen möchten, der auf verschiedenen Engines wie Hive, Pig usw. läuft, dann wäre AWS Data Pipeline die bessere Wahl.

F: Wann sollte ich AWS Glue einsetzen und wann Amazon EMR?

AWS Glue funktioniert auf der Apache Spark-Umgebung und bietet eine skalierbare Ausführungsumgebung für Ihre Datentransformationsjobs. AMWS Glue zieht Schlüsse aus Ihren ETL-Jobs, entwickelt und überprüft sie und vereinfacht den Prozess des Erstellens und der Pflege von Jobs stark. Amazon EMR bietet Ihnen direkten Zugriff auf Ihre Hadoop-Umgebung, gewährt Ihnen Zugriff auf einem niedrigerem Zugriffslevel und größere Flexibilität bei der Anwendung von anderen Tools als Spark.

F: Wann sollte ich AWS Glue einsetzen und wann den AWS Database Migration Service?

AWS Database Migration Service (DMS) hilft Ihnen, Datenbanken einfach und sicher zu AWS zu migrieren. Für Anwendungsfälle, die eine Datenbankmigration vom Standort zu AWS oder eine Datenbankreplizierung zwischen Quellen vor Ort und Quellen auf AWS erfordern, empfehlen wir die Anwendung von AMS DMS. Sobald sich Ihre Daten in AWS befinden, können Sie AWS Glue verwenden, um Ihre Daten von Ihrer Datenquelle in eine andere Datenbank oder ein Data-Warehouse wie Amazon Redshift zu verschieben und zu transformieren.

F: Wann sollte ich AWS Glue und wann AWS Batch verwenden?

AWS Batch ermöglicht Ihnen, alle Batch-Verarbeitungsjobs auf AWS unabhängig von der Art des Jobs leicht und effizient durchzuführen. AWS Batch erstellt und verwaltet die Rechenressourcen in Ihrem AWS-Konto und gibt Ihnen volle Kontrolle und Einsicht in die verwendeten Ressourcen. AWS Glue ist ein vollständig verwalteter ETL-Service, der eine serverlose Apache Spark-Umgebung bereitstellt, um Ihre ETL-Jobs durchzuführen. Für Ihre ETL-Anwendungsfälle empfehlen wir, dass Sie die Anwendung AWS Glue ausprobieren. Für anderer Batch-orientierte Anwendungsfälle, einschließlich einiger ETL-Anwendungsfälle, könnte AWS Batch eine bessere Lösung sein.

F: Wann sollte ich AWS Glue verwenden und wann Amazon Kinesis Analytics?

Amazon Kinesis Analytics ermöglicht Ihnen, Standard-SQL-Abfragen auf Ihrem eingehenden Datenstrom durchzuführen. Sie können einen Zielort wie Amazon S3 festlegen, um Ihre Ergebnisse zu schreiben. Sobald Ihre Daten in Ihrer Zieldatenquelle verfügbar sind, können Sie einen AWS Glue ETL-Job starten, um Ihre Daten weiter zu transformieren und Sie für weitere Analysen und Berichte vorzubereiten.

Zurück zum Seitenanfang »


F: Wie zahle ich für AWS Glue?

Oberhalb der freien Stufe des AWS Glue Datenkatalogs zahlen Sie einfache Monatsgebühr für die Speicherung und den Zugriff auf die Metadaten im AWS Glue Datenkatalog. Zusätzlich zahlen Sie für den ETL-Job und den Crawler-Lauf einen sekundenweise abgerechneten Stundensatz mit einer Mindestzeit von jeweils 10 Minuten. Wenn Sie sich entscheiden, einen Entwicklungsendpunkt zu verwenden, um interaktiv Ihren ETL-Code zu entwickeln, zahlen Sie für die Zeit, in der Ihr Entwicklungsendpunkt bereitgestellt wird, einen sekundenweise abgerechneten Stundensatz mit einer Mindestzeit von 10 Minuten. Weitere Einzelheiten finden Sie auf unserer Seite Preise.

F: Wann beginnt und endet die Rechnungsstellung für meine AWS Glue-Jobs?

Die Rechnungsstellung beginnt, sobald der Job für die Ausführung geplant ist und läuft solange, bis der gesamte Job abgeschlossen ist. Bei AWS Glue zahlen Sie nur für die Zeit, in der Ihr Job läuft, und nicht für die Bereitstellung der Umgebung oder die Stillstandszeit.

Zurück zum Seitenanfang »


F: Wie schützt AWS Glue meine Daten?

Wir bieten serverseitige Verschlüsselung für archivierte Daten und SSL für Daten in Bewegung.

F: Welche Service-Limits gibt es in Verbindung mit AWS Glue?

Bitte lesen Sie die Dokumentation, um mehr über Service-Limits zu erfahren.

F: In welchen Regionen ist AWS Glue verfügbar?

AWS Glue ist derzeit in den Regionen USA Ost (N. Virginia), USA Ost (Ohio) und USA West (Oregon) verfügbar und wird in den kommenden Monaten auf zusätzliche Regionen ausgeweitet. Weitere Einzelheiten finden Sie auf unserer Seite Preise.

F: Wie viele DPUs (Data Processing Units) sind dem Entwicklungsendpunkt zugewiesen?

Ein Entwicklungsendpunkt ist standardmäßig mit 5 DPUs ausgestattet. Sie können einen Entwicklungsendpunkt mit mindestens 2 DPUs und maximal 5 DPUs konfigurieren.

F: Wie skaliere ich die Größe und Leistung meiner AWS Glue ETL-Jobs?

Sie können einfach die Anzahl an DPUs (Data Processing Units) angeben, die Sie Ihrem ETL-Job zuweisen wollen. Ein Glue ETL-Job erfordert mindestens 2 DPUs. Standardmäßig weist AWS Glue jedem ETL-Job 10 DPUs zu.

F: Wie kontrolliere ich die Ausführung meiner Glue-Jobs?

AWS Glue liefert den Status jedes Jobs und überträgt alle Meldungen als Amazon CloudWatch-Ereignisse. Sie können über CloudWatch-Aktionen SMS-Benachrichtungen einrichten, um über fehlgeschlagene oder abgeschlossene Jobs informiert zu werden.

Zurück zum Seitenanfang »