AWS Data Pipeline ist ein Web-Service, der für datengesteuerte Workflows ein einfaches Verwaltungssystem bietet. Mithilfe von AWS Data Pipeline definieren Sie eine Pipeline, die aus Folgendem besteht: den "Datenquellen" mit Ihren Daten, den "Aktivitäten" bzw. der Geschäftslogik, z. B. EMR-Aufträge und SQL-Abfragen, und dem "Zeitplan", gemäß dem Ihre Geschäftslogik ausgeführt wird. Sie können beispielsweise einen stündlichen Auftrag definieren, der auf die Amazon Simple Storage Service (Amazon S3)-Protokolldaten der jeweiligen Stunde eine auf Amazon Elastic MapReduce (Amazon EMR) basierende Analyse anwendet, die Ergebnisse anschließend für künftige Nachschlagevorgänge in eine relationale Datenbank lädt und Ihnen danach automatisch täglich eine E-Mail mit einer Zusammenfassung sendet.

AWS Data Pipeline übernimmt Folgendes:

  • Die Planungs-, Ausführungs- und Wiederholungslogik Ihrer Aufträge
  • Das Nachverfolgen der Abhängigkeiten zwischen Ihrer Geschäftslogik, den Datenquellen und vorherigen Verarbeitungsschritten, um sicherzustellen, dass Ihre Logik erst ausgeführt wird, wenn alle ihre Abhängigkeiten erfüllt sind
  • Das Senden der erforderlichen Fehlerbenachrichtigungen
  • Das Bereitstellen und Verwalten vorübergehender Datenverarbeitungsressourcen, die Ihre Aufträge ggf. benötigen

Kostenlos bei AWS einsteigen

Kostenloses Konto erstellen
oder bei der Konsole anmelden

Das kostenlose Kontingent für AWS umfasst 3 Vorbedingungen mit niedriger Frequenz und 5 Aktivitäten mit niedriger Frequenz mit AWS Data Pipeline.

Details zum kostenlosen Kontingent für AWS anzeigen »

Um sicherzustellen, dass Daten vor der Ausführung einer Aktivität verfügbar sind, ermöglicht AWS Data Pipeline das optionale Erstellen von Datenverfügbarkeitsprüfungen, die als "Vorbedingungen" bezeichnet werden. Bei diesen Prüfungen wird wiederholt die Verfügbarkeit von Daten geprüft. Dabei wird die Ausführung abhängiger Aktivitäten so lange blockiert, bis die Vorbedingungen erfüllt sind.

Die Nutzung von AWS Data Pipeline ist einfach:

  • Über die AWS Management Console, Befehlszeilen-Schnittstelle oder die Service-APIs können Sie Ihre Datenquellen, Vorbedingungen, Aktivitäten, deren Ausführungszeitplan und optional andere Benachrichtigungsbedingungen definieren.
  • Sie können konfigurierbare, automatische Benachrichtigungen empfangen, wenn Ihre Daten nicht wie erwartet zur Verfügung stehen oder bei Ihren Aktivitäten Fehler auftreten.

Im Vorlagenabschnitt der AWS Management Console finden Sie eine Vielzahl beliebter AWS Data Pipeline-Aufgaben. Dazu zählen:

  • Stündliche Analyse von auf Amazon S3 basierenden Protokolldaten
  • Tägliche Replikation von AmazonDynamoDB-Daten in Amazon S3
  • Regelmäßige Replikation lokaler JDBC-Datenbanktabellen in RDS

Weitere Informationen finden Sie im AWS Data Pipeline Developer Guide.

Die Nutzung dieses Service unterliegt der Kundenvereinbarung von Amazon Web Services.