Allgemeines

F: Was ist AWS Glue?

AWS Glue ist ein serverloser Datenintegrationsdienst, der das Auffinden, Aufbereiten und Kombinieren von Daten für Analysen, Machine Learning und die Anwendungsentwicklung vereinfacht. AWS Glue bietet alle nötigen Funktionen für die Datenintegration, durch die Sie Daten in Minuten statt Monaten analysieren und verwerten können. AWS Glue bietet sowohl visuelle als auch codebasierte Schnittstellen, um die Datenintegration zu erleichtern. Benutzer können Daten mit dem AWS Glue-Datenkatalog einfach auffinden und aufrufen. Dateningenieure und ETL-Entwickler (Extract, Transform, Load = extrahieren, übertragen, laden) können AWS Glue Studio verwenden, um ETL-Workflows mit wenigen Klicks visuell zu erstellen, auszuführen und zu überwachen. Datenanalytiker und Daten-Wissenschaftler können AWS Glue DataBrew verwenden, um Daten visuell anzureichern, zu bereinigen und zu normalisieren, ohne Code zu schreiben. Mit AWS Glue Elastic Views können Anwendungsentwickler die gewohnte Structured Query Language (SQL) verwenden, um Daten aus verschiedenen Speichern zu kombinieren und zu replizieren.

F: Was sind die ersten Schritte mit AWS Glue?

Für die ersten Schritte mit AWS Glue melden Sie sich einfach an der AWS-Managementkonsole an und navigieren Sie unter der Kategorie „Analytics“ zu „Glue“. Sie können einem der geführten Lernprogramme folgen, die Schritt für Schritt durch ein Beispiel eines Anwendungsfalls für AWS Glue führen. Zudem steht ETL-Beispielscode in unseremGitHub-Repository unter den AWS-Übungen zur Verfügung. Wie Sie sich für die Vorschau von AWS Glue Elastic Views registrieren, erfahren Sie hier.

F: Was sind die wichtigsten Komponenten von AWS Glue?

AWS Glue umfasst: einen Datenkatalog, also ein zentrales Metadaten-Repository, eine ETL-Engine, die automatisch Scala- oder Python-Code generiert, einen flexiblen Zeitplaner, der die Auflösung von Abhängigkeiten, Aufgabenüberwachung und Neuversuche übernimmt, AWS Glue DataBrew zur Bereinigung und Normalisierung von Daten über eine visuelle Oberfläche und AWS Glue Elastic Views zur Kombination und Replikation von Daten aus mehreren Speichern. Gemeinsam automatisieren diese Komponenten einen großen Anteil der undifferenzierten Schwerlastarbeit, die im Zusammenhang mit der Entdeckung, Kategorisierung, Säuberung, Anreicherung und Verschiebung von Daten anfällt, so dass Sie mehr Zeit für die Datenanalyse zur Verfügung haben.

F: Wann sollte ich AWS Glue einsetzen?

Sie sollten AWS Glue verwenden, wenn Sie Eigenschaften der in Ihrem Besitz befindlichen Daten entdecken, transformieren und für die Analyse vorbereiten möchten. Glue kann automatisch strukturierte und halb-strukturierte Daten entdecken, die in Ihrem Data Lake auf Amazon S3, Ihrem Data-Warehouse in Amazon Redshift und verschiedenen Datenbanken, die auf AWS laufen, gespeichert sind. Glue bietet über den Glue Datenkatalog eine einheitliche Ansicht Ihrer Daten, die für ETL, Anfrage- und Berichterstellung mit Diensten wie Amazon Athena, Amazon EMRund Amazon Redshift Spectrum zur Verfügung stehen. Glue generiert automatisch Scala- oder Python-Code für Ihre ETL-Jobs, den Sie mit den Ihnen bekannten Tools weiter anpassen können. Sie können AWS Glue DataBrew verwenden, um Daten visuell zu bereinigen und zu normalisieren, ohne Code zu schreiben. Sie sollten AWS Glue Elastic Views verwenden, um Daten zu kombinieren und kontinuierlich nahezu in Echtzeit aus mehreren Datenspeichern zu replizieren. AWS Glue ist serverlos, es gibt also keine Rechenressourcen, die konfiguriert und verwaltet werden müssen.

F: Welche Datenquellen unterstützt AWS Glue?

AWS Glue unterstützt standardmäßig in Amazon Aurora, Amazon RDS for MySQL, Amazon RDS for Oracle, Amazon RDS for PostgreSQL, Amazon RDS for SQL Server, Amazon Redshift , DynamoDB und Amazon S3 sowie in MySQL, Oracle, Microsoft SQL Server und PostgreSQL-Datenbanken in Virtual Private Cloud (Amazon VPC) gespeicherte Daten, die über Amazon EC2 ausgeführt werden. AWS Glue unterstützt auch Datenströme von Amazon MSK, Amazon Kinesis Data Streams und Apache Kafka.

Sie können auch benutzerdefinierten Scala- oder Python-Code schreiben und benutzerdefinierte Bibliotheken und JAR-Dateien in Ihre AWS Glue-ETL-Jobs importieren und so auf Datenquellen zugreifen, die ursprünglich nicht von AWS Glue unterstützt werden. Weitere Einzelheiten zum Importieren von benutzerdefinierten Bibliotheken finden Sie in unserer Dokumentation.

Die Vorschauversion von AWS Glue Elastic Views unterstützt derzeit Amazon DynamoDB als Quelle, Support für Amazon Aurora und Amazon RDS folgt. Als Ziele werden derzeit Amazon Redshift, Amazon S3 und Amazon Elasticsearch Service unterstützt, Support für Amazon Aurora, Amazon RDS und Amazon DynamoDB folgt.

F: Wie hängen AWS Glue und AWS Lake Formation zusammen?

A: Lake Formation nutzt eine gemeinsame Infrastruktur mit AWS Glue, inklusive Konsolenbefehle, ETCL-Codeerstellung und Auftragsüberwachung, einen gemeinsamen Datenkatalog und eine serverlose Architektur. Während AWS Glue sich auf diese Arten von Funktionen konzentriert, umfasst Lake Formation alle AWS Glue-Funktionen UND liefert zusätzliche Funktionen, die bei der Erstellung, Sicherung und Verwaltung eines Data Lake helfen. Mehr Informationen finden Sie auf der Seite AWS Lake Formation.

AWS Glue-Datenkatalog

F: Was ist der AWS Glue Datenkatalog?

Der AWS Glue Datenkatalog ist ein zentrales Repository für die Speicherung struktureller und operativer Metadaten für alle Ihre Datenkomponenten. Sie können für einen gegebenen Datensatz die Tabellendefinition und den physischen Ort speichern, geschäftsrelevante Attribute hinzufügen sowie nachverfolgen, wie diese Daten sich mit der Zeit verändert haben.

Der AWS Glue Datenkatalog ist mit dem Apache Hive Metastore kompatibel und ein Drop-in-Ersatz für den Apache Hive Metastore für Big-Data-Anwendungen, die auf Amazon EMR laufen. Weitere Informationen zum Einrichten Ihres EMR-Clusters für die Verwendung des AWS Glue Datenkatalogs als Apache Hive Metastore finden Sie hier.

Der AWS Glue Datenkatalog bietet auch eine Out-of-box-Integration mit Amazon Athena, Amazon EMR und Amazon Redshift Spectrum. Sobald Sie Ihre Tabellendefinitionen zum Glue Datenkatalog hinzugefügt haben, stehen sie für ETL zur Verfügung und sind auch leicht verfügbar für Amazon Athena, Amazon EMR und Amazon Redshift Spectrum, so dass Sie einen gemeinsamen Blick auf Ihren Daten zwischen diesen Services haben.

F: Wie bekomme ich meine Metadaten in den AWS Glue Datenkatalog?

AWS Glue bietet verschiedene Möglichkeiten, den AWS Glue Datenkatalog mit Metadaten zu füllen. Glue-Datenausleseprogramme (Crawler) scannen verschiedene in Ihrem Besitz befindliche Datenspeicher, schließen daraus automatisch auf Schemata und die Partitionsstruktur und füllen den Glue Datenkatalog mit entsprechenden Tabellendefinitionen und Statistiken. Sie können auch die regelmäßige Durchführung von Crawlern planen, so dass Ihre Metadaten immer aktuell sind und mit den zugrundeliegenden Daten synchronisiert sind. Alternativ können Sie manuell Tabellendetails hinzufügen und aktualisieren, indem Sie die AWS Glue Console verwenden oder den API aufrufen. Sie können auch Hive DDL-Statements über die Amazon Athena Console oder einen Hive-Client auf einem Amazon EMR-Cluster durchführen. Und schließlich können Sie mithilfe unserer Import-Skripts einen Massenimport dieser Daten in den AWS Glue Datenkatalog durchführen, wenn Sie bereits einen dauerhaften Apache Hive Metastore haben.

F: Was sind AWS Glue-Crawler?

AWS Glue-Crawler werden mit einem Datenspeicher verbunden und durchsuchen eine priorisierte Liste mit Klassifizierungen, um das Schema für Ihre Daten sowie weitere Statistiken zu extrahieren. Diese Metadaten werden anschließend in den Glue-Datenkatalog übertragen. Crawler können regelmäßig ausgeführt werden, um neu verfügbare Daten sowie Änderungen an bestehenden Daten einschließlich Änderungen an Tabellendefinitionen zu ermitteln. Mit Crawlern werden automatisch neue Tabellen sowie Partitionen zu bestehenden Tabellen und neue Versionen von Tabellendefinitionen hinzugefügt. Sie können AWS Glue-Crawler auch anpassen, um Ihre eigenen Dateintypen zu klassifizieren.

F: Wie importiere ich Daten aus meinem bestehenden Apache Hive Metastore in den AWS Glue Datenkatalog?

Sie führen einfach einen ETL-Job durch, der Ihren Apache Hive Metastore ausliest, die Daten in einem Zwischenformat an Amazon S3 überträgt und dann diese Daten in den AWS Glue Datenkatalog importiert.

F: Muss ich meinen Apache Hive Metastore behalten, wenn ich meine Metadaten im AWS Glue Datenkatalog speichere?

Nein. Der AWS Glue Datenkatalog ist mit dem Apache Hive Metastore kompatibel. Sie können auf den Glue Datenkatalog-Endpunkt verweisen und ihn als Ersatz für den Apache Hive Metastore verwenden. Weitere Informationen zum Einrichten Ihres Clusters für die Verwendung des AWS Glue Datenkatalogs als Apache Hive Metastore finden Sie hier in unserer Dokumentation.

F: Wenn ich bereits Amazon Athena oder Amazon Redshift Spectrum verwende und Tabellen im Datenkatalog von Amazon Athena habe, wie kann ich damit beginnen, den AWS Glue Datenkatalog als Standard-Repository für Metadaten zu verwenden?

Bevor Sie beginnen können, den AWS Glue Datenkatalog als Standard-Repository für Metadaten zwischen Amazon Athena, Amazon Redshift Spectrum und AWS Glue zu verwenden, müssen Sie Ihren Amazon Athena-Datenkatalog auf den AWS Glue Datenkatalog upgraden. Die für das Upgrade erforderlichen Schritte sind hier ausführlich erläutert.

F: Welche Analyse-Services verwenden den AWS Glue Datenkatalog?

Auf die im AWS Glue-Datenkatalog gespeicherten Metadaten kann leicht von Glue ETL, Amazon Athena, Amazon EMR, Amazon Redshift Spectrum und Services von Drittanbietern zugegriffen werden.

AWS Glue Schema Registry

F: Was ist AWS Glue Schema Registry?

Mit AWS Glue Schema Registry, einer serverlosen Funktion von AWS Glue, können Sie die Entwicklung von Streaming-Daten mithilfe von Schemas, die in Apache-Avro- und JSON-Schema-Datenformaten registriert sind, ohne zusätzliche Kosten validieren und steuern. Durch Apache-lizensierte Serializer und Deserializer ist Schema Registry in Java-Anwendungen integriert, die für Apache Kafka, Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink und AWS Lambda entwickelt wurden. Wenn Daten-Streaming-Anwendungen in die Schema-Registry integriert werden, können Sie die Datenqualität verbessern und sich gegen unerwartete Änderungen schützen, indem Sie Kompatibilitätsprüfungen verwenden, die die Schemaentwicklung steuern. Des Weiteren können Sie AWS Glue-Tabellen und -Partitionen mit Apache Avro-Schemata erstellen oder aktualisieren, die im Registry gespeichert sind.

F: Warum sollte ich AWS Glue Schema Registry verwenden?

Die AWS Glue Schema Registry bietet folgende Funktionen:

  1. Validieren von Schemata. Wenn Daten-Streaming-Anwendungen in das AWS Glue Schema Registry integriert sind, werden die Schemas, die für die Datenproduktion verwendet werden, für Schemas innerhalb eines zentralen Registry validiert, was Ihnen ermöglicht, die Datenqualität zentral zu kontrollieren.
  2. Schützen der Schemaentwicklung. Mit einem der acht Kompatibilitätsmodi können Sie Regeln festlegen, wie Schemas entwickelt werden können.
  3. Verbessern der Datenqualität. Serialisierer validieren von Datenerzeugern verwendete Schemata anhand von Kopien in der Registry, verbessern die Datenqualität am Ursprungspunkt und reduzieren Probleme im weiteren Verlauf aufgrund von unerwarteter Schemaabweichung.
  4. Senken von Kosten. Serialisierer konvertieren Daten in das Binärformat und komprimieren sie vor der Bereitstellung, was die Kosten für die Datenübertragung und -speicherung senkt.
  5. Steigern der Prozesseffizienz. In vielen Fällen enthalten Daten-Streams Datensätze unterschiedlicher Schemata. Die Schema Registry ermöglicht es Anwendungen, die Daten-Streams auslesen, jeden Datensatz selektiv auf Grundlage des Schemas zu verarbeiten, ohne dessen Inhalt parsen zu müssen, wodurch die Effizienz gesteigert wird.

F: Welche Datenformate, Client-Sprachen und Integrationen unterstützt AWS Glue Schema Registry?

Schema Registry unterstützt Apache Avro und JSON Datenformate sowie Java Client-Anwendungen. Wir planen die Erweiterung für andere Datenformate und nicht auf Java basierte Clients. Schema Registry lässt sich in Anwendungen integrieren, die für Apache Kafka, Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink und AWS Lambda entwickelt wurden.

F: Welche Entwicklungsregeln unterstützt AWS Glue Schema Registry?

Mit folgenden Kompatibilitätsmodi können Sie die Schemaentwicklung verwalten: Backward, Backward All, Forward, Forward All, Full, Full All, None und Disabled. In der Benutzerdokumentation der Schema Registry erfahren Sie mehr über Kompatibilitätsprobleme.

F: Wie sorgt die AWS Glue Schema Registry für eine hohe Verfügbarkeit meiner Anwendungen?

Die Speicher- und Kontrollebene der Schema Registry ist auf Hochverfügbarkeit ausgelegt und beruht auf der AWS Glue SLA. Die Serialisierer und Deserialisierer nutzen bewährte Caching-Techniken zur Optimierung der Schemaverfügbarkeit in Clients.

F: Ist die AWS Glue Schema Registry Open-Source-basiert?

Der AWS Glue Schema Registry-Speicher ist ein AWS-Service, die Serialisierer und Deserialisierer sind hingegen Apache-lizenzierte Open-Source-Komponenten.

F: Bietet die AWS Glue Schema Registry Datenverschlüsselung im Ruhezustand und bei der Übertragung?

Ja, die Kommunikation von Clients mit der Schema Registry erfolgt über API-Aufrufe, die Daten bei der Übertragung per TLS-Verschlüsselung über HTTPS verschlüsseln. In der Schema Registry gespeicherte Schemata werden im Ruhezustand stets mit einem vom Service verwalteten KMS-Schlüssel verschlüsselt.

F: Wie kann ich eine private Verbindung zur AWS Glue Schema Registry herstellen?

Mit AWS PrivateLink können Sie die VPC Ihres Datenerzeugers mit AWS Glue verbinden, indem Sie einen VPC-Endpunkt als Schnittstelle für AWS Glue definieren. Bei der Nutzung eines VPC-Schnittstellenendpunkts wird die Verbindung zwischen Ihrer VPC und AWS Glue ausschließlich und innerhalb des AWS-Netzwerks hergestellt. Weitere Informationen finden Sie in der Benutzerdokumentation.

F: Wie kann ich die Nutzung der AWS Glue Schema Registry überwachen?

Im Rahmen des kostenlosen Kontingents von CloudWatch sind AWS CloudWatch Metrics verfügbar. Diese Metriken können Sie in der CloudWatch-Konsole aufrufen. Weitere Informationen finden Sie in der Benutzerdokumentation zur AWS Glue Schema Registry.

F: Bietet die AWS Glue Schema Registry Tools zur Verwaltung der Benutzerautorisierung?

Ja, die Schema Registry unterstützt sowohl Berechtigungen auf Ressourcenebene als auch identitätsbasierte IAM-Richtlinien.

F: Wie kann ich von einer vorhandenen Schema-Registry auf die AWS Glue Schema Registry umsteigen?

Die Schritte zur Migration von der Schema-Registry eines Drittanbieters zur AWS Glue Schema Registry finden Sie in der Benutzerdokumentation.

Extract, Transform und Load (ETL)

F: Verfügt AWS Glue über eine Schnittstelle ohne Code für visuelles ETL?

Ja. AWS Glue Studio bietet eine grafische Schnittstelle für die Erstellung von Glue-Aufgaben zur Verarbeitung Ihrer Daten. Nachdem Sie den Fluss Ihrer Datenquellen, Transformationen und Ziele in der visuellen Oberfläche definiert haben, generiert AWS Glue Studio Apache-Spark-Code für Sie.

F: Welche Programmiersprache kann ich für das Schreiben meines ETL-Codes für AWS Glue verwenden?

Sie können entweder Scala oder Python verwenden.

F: Wie kann ich den von AWS Glue generierten ETL-Code anpassen?

Das ETL-Skriptempfehlungssystem von AWS Glue generiert Scala- oder Python-Code. Es verwendet die benutzerdefinierte ETL-Bibliothek von Glue, um den Zugriff auf Datenquellen zu vereinfachen und die Jobausführung zu verwalten. Weitere Einzelheiten zur Bibliothek finden Sie in unser Dokumentation. Mithilfe der benutzerdefinierten Bibliothek von AWS Glue können Sie ETL-Code schreiben oder beliebigen Code in Scala oder Python schreiben, indem Sie die Inline-Editierfunktion mithilfe des AWS Glue Console-Skripteditors verwenden, den selbstgenerierten Code herunterladen und ihn in Ihrer eigenen IDE editieren. Sie können auch mit einem der vielen Beispiele beginnen, die in unserem GitHub-Repository gehostet werden und diesen Code anpassen.

F: Kann ich benutzerdefinierte Bibliotheken als Teil meines ETL-Skripts importieren?

Ja. Sie können benutzerdefinierte Python-Bibliotheken und JAR-Dateien in Ihren AWS Glue-ETL-Job importieren. Weitere Einzelheiten finden Sie hier in unserer Dokumentation.

F: Kann ich meinen eigenen Code mitbringen?

Ja. Sie können Ihren eigenen Code mithilfe der ETL-Bibliothek von AWS Glue schreiben oder Ihren eigenen Scala- oder Python-Code schreiben und ihn in einen Glue-ETL-Job hochladen. Weitere Einzelheiten finden Sie hier in unserer Dokumentation.

F: Wie kann ich meinen ETL-Code mithilfe meiner eigenen IDE entwickeln?

Sie können Entwicklungsendpunkte erstellen, die Ihnen Möglichkeiten bieten, Ihre Notebooks und IDEs zu verbinden, und sich mit diesen verbinden.

F: Wie kann ich mithilfe von mehreren Jobs in AWS Glue einen durchgehenden ETL-Workflow generieren?

Zusätzlich zur ETL-Bibliothek und der Code-Erstellung bietet AWS Glue einen stabilen Satz von Orchestrierungs-Funktionen, die Ihnen ermöglichen, Abhängigkeiten zwischen mehreren Jobs zu verwalten, um durchgehende ETL-Workflows zu erstellen. AWS Glue ETL-Jobs können entweder nach einem Zeitplan oder durch ein Ereignis eines abgeschlossene Jobs ausgelöst werden. Wenn ein Ereignis eines abgeschlossenen Jobs der Auslöser ist, können mehrere Jobs parallel oder nacheinander ausgelöst werden. Sie können auch einen oder mehrere Glue-Jobs von einer externen Quelle (z. B. eine AWS Lambda-Funktion) auslösen.

F: Wie kontrolliert AWS Glue Abhängigkeiten?

AWS Glue verwaltet Abhängigkeiten zwischen zwei oder mehr Jobs oder Abhängigkeiten von externen Ereignissen durch die Verwendung von Triggern. Trigger können einen oder mehrere Jobs beobachten sowie einen oder mehrere Jobs aktivieren. Sie können entweder einen geplanten Trigger einsetzen, der Jobs regelmäßig aktiviert, oder einen On-Demand-Trigger oder einen Trigger bei Job-Abschluss.

F: Wie kontrolliert AWS Glue ETL-Fehler?

AWS Glue kontrolliert die Jobereignis-Messgrößen und Fehler und überträgt alle Meldungen an Amazon CloudWatch. Mit Amazon CloudWatch können Sie zahlreiche Aktionen konfigurieren, die auf Basis spezifischer Meldungen von AWS Glue ausgelöst werden. Wenn Sie zum Beispiel eine Fehler- oder Erfolgsmeldung von Glue erhalten, können Sie eine AWS Lambda-Funktion auslösen. Glue verfügt auch über ein Standardverhalten für Neuversuche, das bei Fehlern immer drei Neuversuche startet, bevor eine Fehlermeldung ausgesendet wird.

F: Kann ich meine bestehenden ETL-Jobs mit AWS Glue durchführen?

Ja. Sie können Ihren bestehenden Scala- oder Python-Code in AWS Glue ausführen. Laden Sie einfach den Code in Amazon S3 und erstellen Sie einen oder mehrere Jobs, die diesen Code verwenden. Sie können denselben Code für mehrere Jobs verwenden, in dem Sie diese auf den gleichen Code-Speicherort auf Amazon S3 verweisen.

F: Wie kann ich AWS Glue für ETL-Streaming-Daten verwenden?

AWS Glue unterstützt ETL auf Streams von Amazon Kinesis Data Streams, Apache Kafka und Amazon MSK. Fügen Sie den Stream zum Glue Datenkatalog hinzu und wählen Sie ihn dann beim Einrichten Ihres AWS Glue-Jobs als Datenquelle aus.

F: Muss ich sowohl den AWS Glue Datenkatalog als auch Glue ETL anwenden, um den Service zu nutzen?

Nein. Wir glauben zwar, dass die Anwendung des AWS Glue Datenkatalogs zusammen mit ETL eine durchgehende ETL-Erfahrung bietet, sie können aber auch nur eine der beiden Komponenten unabhängig von der Anwendung der anderen Komponenten verwenden.

F: Wann sollte ich AWS Glue Streaming und wann Amazon Kinesis Data Analytics verwenden?

Sowohl AWS Glue als auch Amazon Kinesis Data Analytics können zur Verarbeitung von Streaming-Daten verwendet werden. AWS Glue ist besonders geeignet, wenn die Anwendungsfälle primär auf ETL beruhen und wenn Sie Aufträge auf einer serverlosen Plattform ausführen möchten, die auf Apache Spark basiert. Amazon Kinesis Data Analytics wird empfohlen, wenn die Anwendungsfälle primär auf Analysen beruhen und wenn Sie Aufträge auf einer serverlosen Plattform ausführen möchten, die auf Apache Flink basiert.

Streaming ETL in AWS Glue ermöglicht fortgeschrittenes ETL für das Streaming von Daten unter Verwendung derselben serverlosen, verbrauchsbasierten Plattform, die Sie bereits für Ihre Batch-Jobs verwenden. AWS Glue generiert anpassbaren ETL-Code zur Vorbereitung von Daten im laufenden Betrieb und verfügt über integrierte Funktionen zur Verarbeitung von Streaming-Daten, die halbstrukturiert sind oder ein sich wandelndes Schema aufweisen. Verwenden Sie Glue, um die integrierten und Spark-eigenen Transformationen auf Datenströme anzuwenden und laden Sie diese in einen Data Lake oder ein Data Warehouse.

Mit Amazon Kinesis Data Analytics können Sie anspruchsvolle Streaming-Anwendungen erstellen, um Streaming-Daten in Echtzeit zu analysieren. Es ermöglicht eine serverlose Apache-Flink-Laufzeit, die automatisch ohne Server skaliert und den Anwendungsstatus dauerhaft speichert. Verwenden Sie Amazon Kinesis Data Analytics für Echtzeit-Analysen und für die allgemeinere Verarbeitung von Stream-Daten.

F: Wann sollte ich AWS Glue und wann Amazon Kinesis Data Firehose verwenden?

Sowohl AWS Glue als auch Amazon Kinesis Data Firehose können für ETL-Streaming verwendet werden. AWS Glue wird für komplexes ETL empfohlen, einschließlich des Zusammenfügens von Streams und der Partitionierung der Ausgabe in Amazon S3 auf Basis des Dateninhalts. Amazon Kinesis Data Firehose wird empfohlen, wenn sich Ihre Anwendungsfälle auf die Bereitstellung von Daten und die Vorbereitung von Daten für die Verarbeitung nach der Bereitstellung konzentrieren.

Streaming ETL in AWS Glue ermöglicht fortgeschrittenes ETL für das Streaming von Daten unter Verwendung derselben serverlosen, verbrauchsbasierten Plattform, die Sie bereits für Ihre Batch-Jobs verwenden. AWS Glue generiert anpassbaren ETL-Code zur Vorbereitung von Daten im laufenden Betrieb und verfügt über integrierte Funktionen zur Verarbeitung von Streaming-Daten, die halbstrukturiert sind oder ein sich wandelndes Schema aufweisen. Verwenden Sie Glue, um komplexe Transformationen auf Datenströme anzuwenden, Datensätze mit Informationen aus anderen Streams und beständigen Datenspeichern anzureichern und die Datensätze anschließend in den Data Lake oder das Data Warehouse zu übertragen.

Streaming ETL in Amazon Kinesis Data Firehose ermöglicht Ihnen die einfache Erfassung, Umwandlung und Bereitstellung von Streaming-Daten. Amazon Kinesis Data Firehose bietet ETL-Funktionalitäten einschließlich der serverlosen Datentransformation durch AWS Lambda und der Formatkonvertierung von JSON zu Parquet. Es umfasst ETL-Funktionalitäten zur einfacheren Verarbeitung von Daten nach der Bereitstellung, nicht jedoch die fortgeschrittenen ETL-Funktionalitäten, die AWS Glue unterstützt.

Deduplizierte Daten

F: Welche Art von Problemen wird mit FindMatches ML Transform gelöst?

FindMatches löst in der Regel Probleme mit Datensatzverknüpfungen und Datendeduplikation. Eine Deduplikation muss dann durchgeführt werden, wenn Sie Datensätze in einer Datenbank ermitteln möchten, die konzeptuell „gleich“ sind, aber für die separate Datensätze vorliegen. Das Problem ist trivial, wenn doppelte Datensätze durch einen eindeutigen Schlüssel identifiziert werden können (etwa, wenn Produkte eindeutig durch einen UPC-Code identifiziert werden können), wird jedoch herausfordernd, wenn keine exakte Übereinstimmung vorliegt, ein sogenanntes „Fuzzy Match“.

Die Datensatzverknüpfung ist im Grunde das gleiche Problem wie die Datendeduplikation. Dieser Begriff bezeichnet in der Regel jedoch eine Verknüpfung von zwei Datenbanken, die keinen eindeutigen Schlüssel gemeinsam haben, statt die Deduplikation einer einzelnen Datenbank - ein sogenannter „Fuzzy Join“. Erwägen Sie beispielsweise das Problem, eine große Datenbank mit Kunden mit einer kleinen Datenbank bekannter Betrüger abzugleichen. FindMatches kann sowohl für Datensatzverknüpfungs- als auch Deduplikationsprobleme verwendet werden.

FindMatches ML Transform von AWS Glue hilft Ihnen beispielsweise bei folgenden Problemen:

Verknüpfung von Patientendatensätzen zwischen Krankenhäusern, sodass Ärzte mehr Hintergrundinformationen zur Verfügung haben und Patienten besser behandeln können. Dies kann durch die Verwendung von FindMatches auf separaten Datenbanken ermöglicht werden, die gemeinsame Felder wie Name, Geburtsdatum, Anschrift, Telefonnummer usw. enthalten.

Deduplikation einer Filmdatenbank mit Spalten wie „Titel“, „Handlung“, „Erscheinungsjahr“, „Laufzeit“ und „Besetzung“. Zum Beispiel könnte der gleiche Film jeweils unterschiedlich als „Star Wars“, „Star Wars: Eine neue Hoffnung“ und „Star Wars: Episode IV — Eine neue Hoffnung (Special Edition)“ identifiziert werden.

Automatische Gruppierung aller verwandten Produkte in Ihrem Shop durch Ermitteln gleichwertiger Artikel in einem Kleiderproduktkatalog, wobei „gleichwertig“ so definiert werden soll, dass Größen- und Farbunterschiede bei gleichen Kleidungsstücken vernachlässigt werden. Daher wäre „Levi 501 Blue Jeans, Größe 34x34“ dasselbe wie „Levi 501 Jeans -- schwarz, Größe 32x31”.

F: Wie dedupliziert AWS Glue meine Daten?

FindMatches ML Transform von AWS Glue macht es leicht, Datensätze zu finden und zu verknüpfen, die sich auf dieselbe Entität beziehen, aber keinen zuverlässigen Identifikator gemeinsam haben. Vor FindMatchesmussten Entwickler Datenabgleichungsprobleme deterministisch durch eine große Anzahl von Hand abgestimmter Regeln lösen. FindMatches nutzt Machine-Learning-Algorithmen hinter den Kulissen, um nach den eigenen Geschäftskriterien jedes Entwicklers zu lernen, wie Datensätze abgeglichen werden sollen. FindMatches ermittelt zunächst Datensätze, die vom Kunden als übereinstimmend oder nicht übereinstimmend gekennzeichnet werden müssen, und nutzt dann Machine Learning zur Erstellung eines ML Transform. Kunden können diesen Transform dann auf ihre Datenbank anwenden, um übereinstimmende Datensätze zu finden, oder können FindMatches auffordern, zusätzliche Datensätze zur Kennzeichnung bereitzustellen, um die Genauigkeit des ML Transform zu steigern.

F: Was sind ML Transforms?

ML Transforms bieten eine Möglichkeit zur Erstellung und Verwaltung von Machine-Learning-Transforms. Nach der Erstellung und dem Training können diese ML Transforms in handelsüblichen AWS Glue-Skripten ausgeführt werden. Kunden wählen einen bestimmten Algorithmus (zum Beispiel den FindMatches ML Transform) und geben Datensätze, Trainingsbeispiele sowie die vom Algorithmus benötigten Abstimmungsparameter ein. AWS Glue nutzt diese Eingaben zur Erstellung eines ML Transform, das in einen regulären ETL-Aufgaben-Workflow eingebettet werden kann.

F: Wie funktionieren ML Transforms?

AWS Glue enthält spezialisierte, ML-basierte Datensatz-Transformationsalgorithmen, die Kunden zur Erstellung eigener ML Transforms verwenden können. Dazu gehören die Datensatzdeduplikation und das Ermitteln von Übereinstimmungen.

Kunden beginnen durch Navigieren zur Registerkarte „ML Transforms“ in der Konsole (oder durch Verwenden der ML Transforms-Service-Endpunkte bzw. durch den Zugriff auf das ML Transforms-Training über die Befehlszeilenschnittstelle), um ihr erstes ML Transform-Modell zu erstellen. Die Registerkarte „ML Transforms“ bietet eine benutzerfreundliche Ansicht zur Verwaltung von benutzerdefinierten Transforms. ML Transforms haben im Vergleich zu anderen Transforms ihre eigenen Workflow-Anforderungen, darunter separate Trainings-, Parameterabstimmungs- und Ausführungs-Workflows, die Schätzung der Qualitätswerte generierter Transformationen, sowie die Anforderung, zusätzliche Truth-Kennzeichnungen für Training und aktives Lernen zu verwalten und zu sammeln.

Um einen ML Transform über die Konsole zu erstellen, wählen Kunden zunächst den Transform-Typ (wie etwa Datensatz-Deduplikation oder Datensatzabgleichung) und geben die geeigneten Datenquellen an, die zuvor im Data Catalog ermitttelt wurden. Abhängig vom Transform können Kunden dann aufgefordert werden, Truth-Label-Basisdaten für das Training oder zusätzliche Parameter anzugeben. Kunden können den Status ihrer Trainings-Jobs und die Qualitätswerte für jeden Transform überwachen. (Qualitätswerte werden mit einem Holdout-Satz der vom Kunden bereitgestellten Kennzeichnungsdaten bereitgestellt.)

Bei zufriedenstellender Leistung können Kunden ML Transform-Modelle zur Nutzung in der Produktion übernehmen. ML Transforms können dann in ETL-Workflows sowohl im vom Service automatisch generierten Code sowie in benutzerdefinierten, mit anderen Jobs übermittelten Skripten genutzt werden, ähnlich wie die vorerstellten Transforms, die in anderen AWS Glue-Bibliotheken angeboten werden.

F: Kann ich mir eine Präsentation zur Verwendung von AWS Glue (und AWS Lake Formation) zum Finden von Übereinstimmungen und Deduplizieren von Datensätzen ansehen?

A: Ja, die volle Aufzeichnung des AWS Online Tech Talks „Fuzzy Matching and Deduplicating Data with ML Transforms for AWS Lake Formation“ ist hier verfügbar.

AWS Glue DataBrew

F: Was ist AWS Glue DataBrew?

AWS Glue DataBrew ist ein visuelles Datenvorbereitungstool, das es Datenanalysten und Daten-Wissenschaftlern erleichtert, Daten mit einer interaktiven, visuellen Point-and-Click-Oberfläche vorzubereiten, ohne Code schreiben zu müssen. Mit Glue DataBrew können Sie Terabytes und sogar Petabytes von Daten direkt aus Ihrem Data Lake, Data Warehouses und Datenbanken, einschließlich Amazon S3, Amazon Redshift, Amazon Aurora und Amazon RDS, einfach visualisieren, bereinigen und normalisieren. AWS Glue DataBrew ist heute in den Regionen USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), EU (Irland), EU (Frankfurt), Asien-Pazifik (Sydney) und Asien-Pazifik (Tokio) allgemein verfügbar. 

F: Wer kann AWS Glue DataBrew verwenden?

AWS Glue DataBrew wurde für Benutzer entwickelt, die Daten für Analysen und Machine Learning bereinigen und normalisieren müssen. Datenanalytiker und Daten-Wissenschaftler sind die Hauptnutzer. Bei Datenanalytikern sind beispielsweise Business Intelligence-Analytiker, Betriebsanalytiker, Marktintelligenzanalytiker, Rechtsanalytiker, Finanzanalytiker, Wirtschaftswissenschaftler, Quants oder Buchhalter tätig. Für Daten-Wissenschaftler sind beispielsweise Materialwissenschaftler, bioanalytische Wissenschaftler und wissenschaftliche Forscher tätig.

F: Welche Arten von Transformationen werden in AWS Glue DataBrew unterstützt?

Sie können aus über 250 eingebauten Transformationen wählen, um die Daten zu kombinieren, zu drehen und zu transponieren, ohne Code zu schreiben. AWS Glue DataBrew empfiehlt auch automatisch Transformationen wie das Filtern von Anomalien, das Korrigieren ungültiger, falsch klassifizierter oder doppelter Daten, das Normalisieren von Daten auf Standarddatums- und -zeitwerte oder das Generieren von Aggregaten für Analysen. Für komplexe Transformationen, wie z. B. die Konvertierung von Wörtern in eine gemeinsame Basis oder einen Wortstamm, bietet Glue DataBrew Transformationen, die fortgeschrittene Techniken des Machine Learning wie Natural Language Processing (NLP) verwenden. Sie können mehrere Transformationen zusammenfassen, als Rezepte speichern und die Rezepte direkt auf die neuen eingehenden Daten anwenden.

F: Welche Dateiformate unterstützt AWS Glue DataBrew?

Für Eingabedaten unterstützt AWS Glue DataBrew gängige Dateiformate, wie kommagetrennte Werte (.csv), JSON und verschachteltes JSON, Apache Parkett und verschachteltes Apache Parkett sowie Excel-Tabellen. Für Ausgabedaten unterstützt AWS Glue DataBrew kommagetrennte Werte (.csv), JSON, Apache Parquet, Apache Avro, Apache ORC und XML.

F: Kann ich AWS Glue DataBrew kostenlos ausprobieren?

Ja. Melden Sie sich für ein Konto mit kostenlosem AWS-Kontingent an, besuchen Sie dann die AWS Glue DataBrew-Managementkonsole und fangen Sie sofort kostenlos an. Wenn Sie zum ersten Mal Glue DataBrew verwenden, sind die ersten 40 interaktiven Sitzungen kostenlos. Besuchen Sie die Seite Preise für AWS Glue, um mehr zu erfahren.

F: Muss ich AWS Glue Data Catalog oder AWS Lake Formation verwenden, um AWS Glue DataBrew zu benutzen?

Nein. Sie können AWS Glue DataBrew verwenden, ohne den AWS Glue Data Catalog oder AWS Lake Formation zu verwenden. Wenn Sie Glue Data Catalog zum Speichern von Schema- und Metadaten verwenden, leitet Glue DataBrew automatisch Schema aus dem Glue Data Catalog ab. Wenn Ihre Daten in AWS Lake Formation zentralisiert und gesichert sind, können DataBrew-Benutzer alle Datensätze nutzen, die ihnen aus dem zentralen Datenkatalog zur Verfügung stehen.

F: Kann ich Aufzeichnungen über alle an meinen Daten vorgenommenen Änderungen aufbewahren?

Ja. Sie können alle an Ihren Daten vorgenommenen Änderungen in der AWS Glue DataBrew-Managementkonsole visuell verfolgen. In der visuellen Ansicht lassen sich die Änderungen und Beziehungen, die an den Datensätzen, Projekten und Rezepten sowie an allen anderen damit verbundenen Aufgaben vorgenommen wurden, leicht nachvollziehen. Darüber hinaus führt AWS Glue DataBrew alle Kontoaktivitäten als Protokolle im AWS CloudTrail.

 

AWS Glue Elastic Views (Vorschau)

Was ist AWS Glue Elastic Views?

Mit AWS Glue Elastic Views können Sie auf einfache Weise materialisierte Ansichten erstellen, die Daten über mehrere Datenspeicher hinweg kombinieren und replizieren, ohne dass Sie eigenen Code schreiben müssen. Mit AWS Glue Elastic Views können Sie mithilfe der vertrauten Structured Query Language (SQL) schnell eine virtuelle Tabelle – eine materialisierte Ansicht – aus mehreren verschiedenen Quelldatenspeichern erstellen. AWS Glue Elastic Views kopiert Daten aus den einzelnen Quelldatenspeichern und erstellt ein Replikat in einem Zieldatenspeicher. AWS Glue Elastic Views überwacht fortlaufend Änderungen an Daten in Ihren Quelldatenspeichern und stellt Aktualisierungen der materialisierten Ansichten in Ihren Zieldatenspeichern automatisch bereit. So wird sichergestellt, dass die Daten, auf die über die materialisierte Ansicht zugegriffen wird, immer aktuell sind. AWS Glue Elastic Views unterstützt zahlreiche AWS-Datenbanken und -Datenspeicher, einschließlich Amazon DynamoDB, Amazon S3, Amazon Redshift und Amazon Elasticsearch Service. In Zukunft werden auch Amazon RDS, Amazon Aurora und weitere unterstützt. AWS Glue Elastic Views ist serverlos und skaliert die Kapazität je nach Bedarf automatisch nach oben oder unten, sodass keine Infrastruktur zu verwalten ist. Eine Vorschauversion von AWS Glue Elastic Views ist ab heute erhältlich.

Welche Vorteile bietet AWS Glue Elastic Views?

Sie sollten AWS Glue Elastic Views verwenden, um Daten zu kombinieren und kontinuierlich nahezu in Echtzeit aus mehreren Datenspeichern zu replizieren. Das ist oft bei der Entwicklung neuer Anwendungsfunktionen relevant, wenn die Anwendung Daten aus einem oder mehreren bestehenden Datenspeichern abrufen muss. Beispiel: Ein Unternehmen nutzt eine CRM-Anwendung (Customer Relationship Management) zum Nachverfolgen von Kundenkontakten und eine E-Commerce-Website für den Onlinehandel. Diese Anwendungen nutzen einen oder mehrere Datenspeicher zum Abspeichern von Informationen. Das Unternehmen entwickelt eine neue, eigene Anwendung, die Sonderangebote für aktive Website-Besucher erstellt und anzeigt. Dazu kombiniert die Anwendung Kundendaten aus der CRM-Anwendung mit den Daten aus dem Web-Clickstream der E-Commerce-Anwendung. Mit AWS Glue Elastic Views können Entwickler neue Funktionen in drei Schritte entwickeln. Zuerst verbinden sie die Datenspeicher der CRM- und E-Commerce-Anwendung mit AWS Glue Elastic Views. Dann wählen sie mit SQL die richtigen Daten aus dem CRM- und E-Commerce-Datenspeichern aus. Zuletzt verbinden Sie den Datenspeicher der eigens entwickelten Anwendung, um die Ergebnisse zu speichern.

Wie funktioniert AWS Glue Elastic Views mit anderen AWS-Services?

Mit AWS Glue Elastic Views können Sie mehrere Datenquellen in AWS verbinden und mit der vertrauten SQL-Sprache Übersichten über diese Quellen erstellen. Diese Übersichten können in Zieldatenspeichern materialisiert werden. Zum Beispiel können Sie Übersichten erstellen, die auf Restaurantinformationen in Amazon Aurora und Kundenbewertungen in Amazon DynamoDB zugreifen, und diese Übersichten in Amazon Redshift materialisieren. Sie können dann eine Anwendung entwickeln, die kulinarische Vorlieben mit beliebten Restaurants auf Basis von Amazon Redshift kombiniert. Da die Quellen von AWS Glue Elastic Views von den Zielen getrennt sind, können Sie bei leseintensiven Anwendungen die Leseanfragen auf ein AWS Glue Elastic Views-Target auslagern, das eine konsistente Kopie der Quelle pflegt. Sie können die Daten in AWS Glue Elastic Views-Zielspeichern mit Services wie Amazon QuickSight oder Visualisierungstools von Partnern wie Tableau visualisieren.

Kann ich AWS Glue Elastic Views sowohl für operative als auch für analytische Workloads verwenden?

Ja. Mit AWS Glue Elastic Views können Sie Daten nahezu in Echtzeit von einem Datenspeicher in einen anderen replizieren. Das ermöglicht leistungsstarke operative Anwendungen, die Zugriff auf aktuelle Daten aus mehreren Datenspeichern benötigen. AWS Glue Elastic Views ermöglicht zudem die Integration operativer und analytischer Systeme ohne Entwicklung und Wartung komplexer Pipelines zur Datenintegration. Mit AWS Glue Elastic Views können Sie Übersichten über Daten in operativen Datenbanken erstellen und diese Übersichten in einem Data Warehouse oder Data Lake materialisieren. AWS Glue Elastic Views verfolgt Änderungen in Ihren operativen Datenbanken und stellt die Synchronisierung der Daten in Ihrem Data Warehouse und Data Lake sicher. Sie können jetzt analytische Abfragen der aktuellsten operativen Daten durchführen.

Welche Quellen und Ziele unterstützt AWS Glue Elastic Views derzeit?

Derzeit wird in der Vorschauversion unter anderem Amazon DynamoDB als Quelle unterstützt, der Support für Amazon Aurora MySQL, Amazon Aurora PostgreSQL, Amazon RDS for MySQL und Amazon RDS for PostgreSQL folgt. Als Ziele werden derzeit Amazon Redshift, Amazon S3 und Amazon Elasticsearch Service unterstützt, Support für Amazon Aurora MySQL, Amazon Aurora PostgreSQL, Amazon RDS for MySQL und Amazon RDS for PostgreSQL folgt.

Was ist der Unterschied zwischen AWS Glue Elastic Views und einem Data Lake?

Ein Data Lake ist ein skalierbares zentralisiertes Repository in Amazon S3, das dafür optimiert ist, Daten aus vielen unterschiedlichen Datenspeichern an einem Ort für analytische Anwendungen und Abfragen bereitzustellen. Ein Data Lake ermöglicht die Nutzung all Ihrer Unternehmensdaten für Analysen und Machine Learning für bessere geschäftliche Erkenntnisse und Entscheidungen. AWS Glue Elastic Views hingegen ist ein Service, mit dem Sie Daten aus mehreren Datenbanken in Ihrem Amazon S3 Data Lake kombinieren und replizieren können. Soll eine Anwendungsfunktion bestimmte Daten aus nahezu in Echtzeit aus einem oder mehreren vorhandenen Datenspeichern abrufen, ermöglicht AWS Glue Elastic Views die Replikation von Daten aus mehreren Datenspeichern, um sie aktuell zu halten. Sie können mit AWS Glue Elastic Views zudem Daten aus operativen Datenbanken in einen Data Lake laden, indem Sie Übersichten über Ihre operativen Datenbanken erstellen und in Ihrem Data Lake materialisieren.

AWS-Produktintegrationen

F: Wann sollte ich AWS Glue einsetzen und wann AWS Data Pipeline?

AWS Glue bietet einen verwalteten ETL-Service, der in einer serverlosen Apache Spark-Umgebung läuft. Dies macht es möglich, dass Sie sich auf Ihren ETL-Job konzentrieren können und sich keine Gedanken über die Konfiguration und Verwaltung der zugrundeliegenden Rechenressourcen machen müssen. AWS Glue hat einen "Daten-zuerst"-Ansatz und ermöglicht Ihnen, sich auf die Dateneigenschaften und Datenmanipulation zu konzentrieren, um die Daten in eine Form zu bringen, mithilfe derer Sie Geschäftseinblicke erhalten. AWS Glue verfügt über einen integrierten Datenkatalog, der die Metadaten für ETL sowie Abfragen über Amazon Athena und Amazon Redshift Spectrum verfügbar macht.

AWS Data Pipeline bietet einen verwalteten Orchestrierungs-Service, der Ihnen größere Flexibilität in Bezug auf die Ausführungsumgebung, Zugriff und Kontrolle über die Rechenressourcen, mit denen Ihr Code läuft, sowie den eigentlichen Code für die Datenverarbeitung bietet. AWS Data Pipeline startet Rechenressourcen in Ihrem Konto, die Ihnen den direkten Zugriff auf die Amazon EC2-Instanzen oder Amazon EMR-Cluster ermöglichen.

Außerdem basieren die ETL-Jobs von AWS Glue auf Scala oder Python. Wenn Ihr Anwendungsfall erfordert, dass Sie eine andere Engine als Apache Spark verwenden oder wenn Sie einen heterogenen Satz von Jobs durchführen möchten, der auf verschiedenen Engines wie Hive, Pig usw. läuft, dann wäre AWS Data Pipeline die bessere Wahl.

F: Wann sollte ich AWS Glue einsetzen und wann Amazon EMR?

AWS Glue funktioniert auf der Apache Spark-Umgebung und bietet eine skalierbare Ausführungsumgebung für Ihre Datentransformationsjobs. AWS Glue zieht Schlüsse aus Ihren ETL-Jobs, entwickelt und überprüft sie und vereinfacht den Prozess des Erstellens und der Pflege von Jobs stark. Amazon EMR bietet Ihnen direkten Zugriff auf Ihre Hadoop-Umgebung, gewährt Ihnen Zugriff auf einem niedrigerem Zugriffslevel und größere Flexibilität bei der Anwendung von anderen Tools als Spark.

F: Wann sollte ich AWS Glue einsetzen und wann den AWS Database Migration Service?

AWS Database Migration Service (DMS) hilft Ihnen, Datenbanken einfach und sicher zu AWS zu migrieren. Für Anwendungsfälle, die eine Migration lokaler Datenbanken zu AWS oder eine Datenbankreplizierung zwischen Quellen vor Ort und Quellen auf AWS erfordern, empfehlen wir die Anwendung von AWS DMS. Sobald sich Ihre Daten in AWS befinden, können Sie AWS Glue verwenden, um Ihre Daten von Ihrer Datenquelle in eine andere Datenbank oder ein Data Warehouse wie Amazon Redshift zu verschieben, zu kombinieren, zu replizieren und zu transformieren.

F: Wann sollte ich AWS Glue und wann AWS Batch verwenden?

AWS Batch ermöglicht Ihnen, alle Batch-Verarbeitungsjobs auf AWS unabhängig von der Art des Jobs leicht und effizient durchzuführen. AWS Batch erstellt und verwaltet die Rechenressourcen in Ihrem AWS-Konto und gibt Ihnen volle Kontrolle und Einsicht in die verwendeten Ressourcen. AWS Glue ist ein vollständig verwalteter ETL-Service, der eine serverlose Apache Spark-Umgebung bereitstellt, um Ihre ETL-Jobs durchzuführen. Für Ihre ETL-Anwendungsfälle empfehlen wir, dass Sie die Anwendung AWS Glue ausprobieren. Für anderer Batch-orientierte Anwendungsfälle, einschließlich einiger ETL-Anwendungsfälle, könnte AWS Batch eine bessere Lösung sein.

Preise und Abrechnung

F: Wie zahle ich für AWS Glue?

Oberhalb der freien Stufe des AWS Glue Datenkatalogs zahlen Sie einfache Monatsgebühr für die Speicherung und den Zugriff auf die Metadaten im AWS Glue Datenkatalog. Sie zahlen einen sekundenweise abgerechneten Stundensatz für den Crawler-Lauf mit einer Mindestzeit von 10 Minuten. Wenn Sie sich entscheiden, einen Entwicklungsendpunkt zu verwenden, um interaktiv Ihren ETL-Code zu entwickeln, zahlen Sie für die Zeit, in der Ihr Entwicklungsendpunkt bereitgestellt wird, einen sekundenweise abgerechneten Stundensatz mit einer Mindestzeit von 10 Minuten. Darüber hinaus zahlen Sie einen sekundenweise abgerechneten Stundensatz für die ETL-Aufgabe mit einer Mindestzeit von 1 oder 10 Minuten, abhängig von der gewählten Glue-Version. Weitere Einzelheiten finden Sie auf unserer Seite Preise.

F: Wann beginnt und endet die Rechnungsstellung für meine AWS Glue-Jobs?

Die Rechnungsstellung beginnt, sobald der Job für die Ausführung geplant ist und läuft solange, bis der gesamte Job abgeschlossen ist. Bei AWS Glue zahlen Sie nur für die Zeit, in der Ihr Job läuft, und nicht für die Bereitstellung der Umgebung oder die Stillstandszeit.

Sicherheit und Verfügbarkeit

F: Wie schützt AWS Glue meine Daten?

Wir bieten serverseitige Verschlüsselung für archivierte Daten und SSL für Daten in Bewegung.

F: Welche Service-Limits gibt es in Verbindung mit AWS Glue?

Bitte lesen Sie die Dokumentation, um mehr über Service-Limits zu erfahren.

F: In welchen Regionen ist AWS Glue verfügbar?

Weitere Informationen über die Verfügbarkeit von AWS Glue Services nach Regionen finden Sie in der AWS-Regionstabelle.

F: Wie viele DPUs (Data Processing Units) sind dem Entwicklungsendpunkt zugewiesen?

Ein Entwicklungsendpunkt ist standardmäßig mit 5 DPUs ausgestattet. Sie können einen Entwicklungsendpunkt mit mindestens 2 DPUs und maximal 5 DPUs konfigurieren.

F: Wie skaliere ich die Größe und Leistung meiner AWS Glue ETL-Jobs?

Sie können einfach die Anzahl an DPUs (Data Processing Units) angeben, die Sie Ihrem ETL-Job zuweisen wollen. Ein Glue ETL-Job erfordert mindestens 2 DPUs. Standardmäßig weist AWS Glue jedem ETL-Job 10 DPUs zu.

F: Wie kontrolliere ich die Ausführung meiner AWS Glue-Jobs?

AWS Glue liefert den Status jedes Jobs und überträgt alle Meldungen an Amazon CloudWatch. Sie können über CloudWatch-Aktionen SNS-Benachrichtigungen einrichten, um über fehlgeschlagene oder abgeschlossene Jobs informiert zu werden.

Service Level Agreement

F: Welche Garantien enthält das SLA von AWS Glue?

Unser AWS Glue-SLA garantiert für AWS Glue eine monatliche Betriebszeit von mindestens 99,9 %.

F: Wie erfahre ich, ob ich zu einer Gutschrift aus dem SLA berechtigt bin?

Sie sind im Rahmen des AWS Glue-SLA zu einer SLA-Gutschrift für AWS Glue berechtigt, wenn mehr als eine Availability Zone, in der Sie eine Aufgabe ausführen, in ein und derselben Region und in einem monatlichen Abrechnungszyklus eine monatliche Betriebszeit von weniger als 99,9 % aufweist.

Ausführliche Informationen zu allen Bestimmungen des SLA sowie Einzelheiten zur Geltendmachung eines Anspruchs finden Sie auf der AWS Glue-SLA-Detailseite.

Standard Product Icons (Features) Squid Ink
Zur Seite mit den Preisen

Entdecken Sie die Preisoptionen für AWS Glue.

Weitere Informationen 
Sign up for a free account
Für ein kostenloses Konto registrieren

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Standard Product Icons (Start Building) Squid Ink
Beginnen Sie mit der Erstellen auf der Konsole

Beginnen Sie mit dem Erstellen von AWS Glue auf der AWS Management Console.

Anmelden