Mit AWS Data Pipeline als verwaltetem Extract-Transform-Load (ETL, Datenabruf-, -umwandlung- und -lade-) Service können Sie Datenbewegungen und -umwandlungen in verschiedenen AWS-Diensten sowie für lokale Ressourcen festlegen. Bei der Benutzung von Data Pipeline legen Sie die abhängigen Verfahren fest, nach denen Ihre Pipeline aus den Knotenpunkten Ihrer Daten geschaffen wird; die Aktivitäten oder die fachlichen Regeln wie fortlaufende EMR-Aufgaben oder SQL-Abfragen; und den zeitlichen Ablaufplan, der Ihrer Geschäftslogik zugrundeliegt.

Wenn Sie beispielsweise in Amazon S3 gespeicherte Daten über Klickstrom zu Amazon Redshift bewegen wollen, definieren Sie eine Pipeline mit einem S3DataNode, der die Protokolldateien speichert, eine HiveActivity, die die Protokolldateien mit Hilfe eines Amazon EMR-Clusters in eine .csv-Datei umwandelt und wieder in S3 speichert, eine RedshiftCopyActivity, die Ihre Daten von S3 zu Redshift kopiert, und einen RedshiftDataNode, der sich mit Ihrem Redshift-Cluster verbindet. Dann können Sie festlegen, dass ein solcher Ablauf am Ende des Tages erfolgt.

AWS Data Pipeline bewegt Daten über Klickstrom von Amazon S3 zu Amazon Redshift

AWS Data Pipeline kann verwendet werden, um Daten über Klickstrom von Amazon S3 zu Amazon Redshift zu bewegen.

Kostenlos bei AWS einsteigen

Kostenloses Konto erstellen
Oder bei der Konsole anmelden

Das kostenlose Kontingent für AWS umfasst 3 Vorbedingungen mit niedriger Frequenz und 5 Aktivitäten mit niedriger Frequenz mit AWS Data Pipeline.

Details zum kostenlosen Kontingent für AWS anzeigen »

Sie können auch Vorbedingungen festlegen, die vor dem Start einer bestimmten Aktivität prüfen, ob Ihre Dateien verfügbar sind. Im vorangehenden Beispiel könnte eine Vorbedingung beim S3DataNode vor dem Start der HiveActivity prüfen, ob die Protokolldateien verfügbar sind.

AWS Data Pipeline ...

  • übernimmt die Planungs-, Ausführungs- und Wiederholungslogik Ihrer Aufträge.
  • verfolgt die Abhängigkeiten zwischen Geschäftslogik, Datenquellen und vorherigen Verarbeitungsschritten nach, um sicherzustellen, dass Ihre Logik erst ausgeführt wird, wenn deren Abhängigkeiten erfüllt sind.
  • sendet erforderliche Fehlerbenachrichtigungen.
  • übernimmt die Bereitstellung und Verwaltung von Datenverarbeitungsressourcen, die Ihre Aufträge ggf. erfordern.

 

Anwendungsfälle

ETL-Daten zu Amazon Redshift

Kopieren von RDS oder DynamoDB-Tabellen auf S3, Umwandlung der Datenstruktur und Ausführen von Analyseprogrammen mit Hilfe von SQL-Abfragen und Hochladen in Redshift.

ETL Unstrukturierte Daten

Analyse unstrukturierter Daten wie Klickstrom-Protokolldateien mit Hilfe von Hive oder Pig auf EMR, Kombination mit strukturierten Daten von RDS und Hochladen in Redshift zur Vereinfachung von Abfragen.

Laden von AWS Protokolldaten in Amazon Redshift

Hochladen von Protokolldateien wie beispielsweise von den AWS-Abrechnungsprotokolldaten oder Protokolldaten von AWS CloudTrail, Amazon CloudFront und Amazon CloudWatch von Amazon S3 in Redshift.

Laden und Extrahieren von Daten

Kopieren von Daten aus Ihrer RDS- oder Redshift-Tabelle auf S3 und umgekehrt.

Verschieben in die Cloud

Einfaches Kopieren von Daten aus Ihrem lokalen Datenspeicher, beispielsweise einer MySQL-Datenbank, und Verschieben in einen AWS-Datenspeicher wie S3, um sie für die Anwendung auf den verschiedenen AWS-Dienstplattformen wie Amazon EMR, Amazon Redshift und Amazon RDS verfügbar zu machen.

 

Amazon-DynamoDB-Datensicherung und -Wiederherstellung

Regelmäßige Erstellung von Sicherungskopien Ihrer Dynamo DB-Tabelle auf S3 zur Wiederherstellung im Katastrophenfall.

Verwenden Sie die AWS Pipeline sofort mit derAWS-Managementkonsole, dem AWS Command Line Interface oder den Service-API (Application Programming Interface, Oberfläche für die Programmierung von Anwendungen).