Kostenlos bei AWS einsteigen

Kostenloses Konto erstellen
Oder bei der Konsole anmelden

Das kostenlose Kontingent für AWS umfasst eine Nutzung von Cache-Knoten vom Typ "Micro" von 750 Stunden in Amazon ElastiCache.

Details zum kostenlosen Kontingent für AWS anzeigen »

F: Was ist AWS Data Pipeline?

AWS Data Pipeline ist ein Web-Service, der das Planen regelmäßiger Datenverschiebungs- und -verarbeitungsaktivitäten in der AWS-Cloud vereinfacht. AWS Data Pipeline ist mit lokalen und Cloud-basierten Speichersystemen integriert, damit Entwickler ihre Daten zum gewünschten Zeitpunkt am gewünschten Ort im benötigten Format nutzen können. AWS Data Pipeline ermöglicht das schnelle Definieren einer abhängigen Kette von Datenquellen und -zielen sowie vor- oder benutzerdefinierter Datenverarbeitungsaktivitäten in einer sog. Pipeline. Je nach definiertem Zeitplan führt Ihre Pipeline regelmäßige Verarbeitungsaufgaben aus, z. B. Verteilung von Datenkopien, SQL-Transformationen, MapReduce-Anwendungen oder benutzerdefinierte Skripts für Ziele wie Amazon S3, Amazon RDS oder Amazon DynamoDB. Durch die Ausführung der Planungs-, Wiederholungs- und Fehlerlogik für diese Workflows im Rahmen eines überaus skalierbaren und vollständig verwalteten Service stellt Data Pipeline sicher, dass Ihre Pipelines zuverlässig und hoch verfügbar sind.

F: Wozu kann ich AWS Data Pipeline verwenden?

Mithilfe von AWS Data Pipeline können Sie Pipelines schnell und einfach bereitstellen, durch die die Entwicklungs- und Wartungsanstrengungen überflüssig werden, die für den tagtäglichen Betrieb der Datenumgebung erforderlich sind. Somit können Sie sich mehr auf das Gewinnen von Einsichten aus Ihren Daten konzentrieren. Sie müssen für Ihre Daten-Pipeline lediglich die Datenquellen, den Zeitplan und die Verarbeitungsaktivitäten angeben. AWS Data Pipeline übernimmt die Ausführung und Überwachung Ihrer Verarbeitungsaktivitäten in einer überaus zuverlässigen, fehlertoleranten Infrastruktur. Zur weiteren Vereinfachung Ihres Entwicklungsprozesses bietet AWS Data Pipeline vordefinierte Aktivitäten für gängige Aktionen wie das Kopieren von Daten zwischen Amazon S3 und Amazon RDS oder das Anwenden einer Abfrage auf Amazon S3-Protokolldaten.

F: Wie unterscheidet sich AWS Data Pipeline von Amazon Simple Workflow Service?

Die beiden Services bieten zwar Funktionen für Ausführungsüberwachung, Wiederholung und Ausnahmebehandlung sowie die Fähigkeit zum Ausführen frei wählbarer Aktionen, AWS Data Pipeline wurde jedoch speziell konzipiert, um die spezifischen Schritte zu vereinfachen, die in einer Vielzahl datengesteuerter Workflows vorkommen. Dazu zählen insbesondere das Ausführen von Aktivitäten, sobald deren Eingabedaten bestimmte Bereitschaftskriterien erfüllen, das einfache Kopieren von Daten zwischen verschiedenen Datenspeichern und das Planen verknüpfter Transformationen. Dieser sehr spezielle Fokus bedeutet, dass die dazugehörigen Workflow-Definitionen sehr schnell und ohne Code- oder Programmierungskenntnisse erstellt werden können.

F: Was ist eine Pipeline?

Eine Pipeline ist die AWS Data Pipeline-Ressource, die die Definition der abhängigen Kette von Datenquellen und -zielen sowie vor- oder benutzerdefinierter Datenverarbeitungsaktivitäten enthält, die für die Ausführung Ihrer Geschäftslogik erforderlich sind.

F: Was ist ein Datenknoten?

Ein Datenknoten ist eine Abbildung Ihrer Geschäftsdaten. Ein Datenknoten kann beispielsweise auf einen bestimmten Amazon S3-Pfad verweisen. AWS Data Pipeline unterstützt eine Ausdruckssprache, die das Verweisen auf regelmäßig generierte Daten vereinfacht. Sie können beispielweise angeben, dass Ihr Amazon S3-Datenformat "s3://example-bucket/my-logs/logdata-#{scheduledStartTime('YYYY-MM-DD-HH')}.tgz" ist.

F: Was ist eine Aktivität?

Eine Aktivität ist eine Aktion, die AWS Data Pipeline in Ihrem Auftrag als Teil einer Pipeline auslöst. Beispiele von Aktivitäten sind EMR- oder Hive-Aufträge, Kopien, SQL-Abfragen oder Befehlszeilenskripts.

F: Was ist eine Vorbedingung?

Eine Vorbedingung ist eine Bereitschaftsprüfung, die einer Datenquelle oder Aktivität optional zugewiesen werden kann. Wenn zu einer Datenquelle eine Vorbedingungsprüfung gehört, muss diese Prüfung erfolgreich verlaufen, ehe Aktivitäten ausgelöst werden, bei denen die Datenquelle genutzt wird. Wenn eine Aktivität eine Vorbedingung hat, muss die Vorbedingungsprüfung erfolgreich verlaufen, damit die Aktivität erfolgt. Dies kann nützlich sein, wenn Sie eine verarbeitungsaufwendige Aktivität ausführen, die erst ausgeführt werden sollte, wenn bestimmte Kriterien erfüllt sind.

F: Was ist ein Zeitplan?

Mithilfe von Zeitplänen werden der Zeitpunkt der Ausführung von Aktivitäten in Ihrer Pipeline und die Frequenz bestimmt, die der Service für die Verfügbarkeit Ihrer Daten annimmt. Alle Zeitpläne müssen ein Anfangsdatum und eine Frequenz haben, z. B. täglich ab dem 01.01.2013 15:00 Uhr. Zeitpläne können optional ein Enddatum haben, hinter dem der AWS Data Pipeline-Service keine weiteren Aktivitäten mehr ausführt. Wenn Sie einen Zeitplan einer Aktivität zuordnen, wird diese gemäß dem Zeitplan ausgeführt. Wenn Sie einen Zeitplan einer Datenquelle zuordnen, informieren Sie den AWS Data Pipeline-Service, dass Sie die Aktualisierung der Daten gemäß diesem Zeitplan erwarten. Wenn Sie beispielsweise eine Amazon S3-Datenquelle mit einem stündlichen Zeitplan definieren, erwartet der Service, dass die Datenquelle stündlich neue Dateien enthält.



F: Stellt AWS Data Pipeline Standardaktivitäten bereit?

Ja, AWS Data Pipeline bietet integrierte Unterstützung für die folgenden Aktivitäten:

  • CopyActivity: Diese Aktivität kann Daten zwischen Amazon S3- und JDBC-Datenquellen kopieren oder eine SQL-Abfrage ausführen und deren Ausgabe in Amazon S3 kopieren.
  • HiveActivity: Diese Aktivität ermöglicht das einfache Ausführen von Hive-Abfragen.
  • EMRActivity: Diese Aktivität ermöglicht das Ausführen frei wählbarer Amazon EMR-Aufträge.
  • ShellCommandActivity: Diese Aktivität ermöglicht das Ausführen frei wählbarer Linux-Shell-Befehle oder -Programme.

F: Gibt AWS Data Pipeline Standardvorbedingungen an?

Ja, AWS Data Pipeline bietet integrierte Unterstützung für die folgenden Vorbedingungen:

  • DynamoDBDataExists: Diese Vorbedingung prüft, ob in einer DynamoDB-Tabelle Daten vorhanden sind.
  • DynamoDBTableExists: Diese Vorbedingung prüft, ob eine DynamoDB-Tabelle vorhanden ist.
  • S3KeyExists: Diese Vorbedingung prüft, ob ein bestimmter Amazon S3-Pfad vorhanden ist.
  • S3PrefixExists: Diese Vorbedingung prüft, ob mindestens eine Datei in einem bestimmten Pfad vorhanden ist.
  • ShellCommandPrecondition: Diese Vorbedingung wendet ein frei wählbares Skript auf Ihre Ressourcen an und prüft, ob das Skript Erfolg hatte.

F: Kann ich eigene benutzerdefinierte Aktivitäten angeben?

Ja, Sie können mithilfe von ShellCommandActivity frei wählbare Aktivitätslogik ausführen.

F: Kann ich eigene benutzerdefinierte Vorbedingungen angeben?

Ja, Sie können mithilfe von ShellCommandPrecondition frei wählbare Vorbedingungslogik ausführen.

F: Kann ich mehrere Zeitpläne für verschiedene Aktivitäten in derselben Pipeline definieren?

Ja, Sie können mehrere Zeitplanobjekte in Ihrer Pipeline-Definitionsdatei definieren und den gewünschten Zeitplan über das Zeitplanfeld der ordnungsgemäßen Aktivität zuordnen. Auf diese Weise können Sie eine Pipeline definieren, in der z. B. Protokolldateien stündlich in Amazon S3 gespeichert werden, und für die Erstellung eines zusammenfassenden Berichts einmal pro Tag sorgen.

F: Was geschieht, wenn eine Aktivität fehlschlägt?

Eine Aktivität schlägt fehl, wenn alle Ausführungsversuche den Status "Fehler" zurückgeben. Eine Aktivität wird standardmäßig wiederholt, ehe sie den festen Status "Fehler" erhält. Sie können die Anzahl automatischer Wiederholungen auf 10 erhöhen. Das System lässt jedoch nicht unbegrenzt viele Wiederholungen zu. Wenn für eine Aktivität die zulässige Anzahl von Wiederholungen erreicht ist, wird ein konfigurierter "onFailure"-Alarm ausgelöst. Es erfolgt keine weitere Wiederholung, es sei denn, Sie lösen über die Befehlszeilen-Schnittstelle, API oder eine Konsolenschaltfläche manuell einen Wiederholungsbefehl aus.

F: Wie füge ich einer Aktivität Alarme hinzu?

Sie können Amazon SNS-Alarme definieren, die bei Erfolg, Fehler oder Verzögerung einer Aktivität ausgelöst werden. Erstellen Sie ein Alarmobjekt, und verweisen Sie darauf in den Attributen "onFail", "onSuccess" oder "onLate" des Aktivitätsobjekts.

F: Kann ich fehlgeschlagene Aktivitäten manuell erneut ausführen?

Ja. Sie können eine Gruppe abgeschlossener oder fehlgeschlagener Aktivitäten erneut ausführen, indem Sie deren Status auf SCHEDULED festlegen. Dies kann durch Klicken auf die Schaltfläche "Rerun" auf der Benutzeroberfläche oder Ändern des Status über die Befehlszeile oder API erfolgen. Dadurch erfolgt unmittelbar eine erneute Überprüfung aller Aktivitätsabhängigkeiten, auf die die Ausführung zusätzlicher Aktivitätswiederholungen folgt. Bei nachfolgenden Fehlern wird die zur Aktivität gehörige ursprüngliche Anzahl von Wiederholungsversuchen durchgeführt.

F: Für welche Ressourcen können Aktivitäten ausgeführt werden?

AWS Data Pipeline-Aktivitäten werden für Datenverarbeitungsressourcen in Ihrer Zuständigkeit ausgeführt. Es gibt zwei Typen von Datenverarbeitungsressourcen: von AWS Data Pipeline verwaltet und von Ihnen verwaltet. Von AWS Data Pipeline verwaltete Ressourcen sind Amazon EMR-Cluster oder Amazon EC2-Instances, die der AWS Data Pipeline-Service bedarfsabhängig startet. Von Ihnen verwaltete Ressourcen werden längerfristig ausgeführt. Dabei kann es sich um Ressourcen handeln, die den auf Java basierenden Task Runner von AWS Data Pipeline ausführen können (lokale Hardware, eine vom Kunden verwaltete Amazon EC2-Instance usw.).

F: Kann AWS Data Pipeline von AWS Data Pipeline verwaltete Datenverarbeitungsressourcen für mich bereitstellen und entfernen?

Ja, Ihre Datenverarbeitungsressourcen werden bereitgestellt, wenn die erste Aktivität, die diese Ressourcen nutzt, zu einem geplanten Zeitpunkt zur Ausführung bereit ist. Diese Instances werden beendet, sobald die letzte Aktivität, die diese Ressourcen nutzt, erfolgreich abgeschlossen wurde oder fehlgeschlagen ist.

F: Können für dieselbe Pipeline mehrere Datenverarbeitungsressourcen verwendet werden?

Ja, Sie können einfach mehrere Cluster-Objekte in Ihrer Definitionsdatei definieren und den zu verwendenden Cluster über dessen Feld "runsOn" der jeweiligen Aktivität zuordnen. Dadurch können für Pipelines AWS- und lokale Ressourcen kombiniert werden, oder es kann eine Mischung von Instance-Typen für ihre Aktivitäten verwendet werden. Sie können beispielsweise eine t1.micro-Instance nutzen, um ein Skript kostengünstig schnell auszuführen. Im weiteren Verlauf kann die Pipeline einen Amazon EMR-Auftrag aufweisen, der die Verarbeitungsleistung eines Clusters aus größeren Instances benötigt.

F: Kann ich Aktivitäten auf lokale oder von mir verwaltete AWS-Ressourcen anwenden?

Ja. Damit Aktivitäten mithilfe lokaler Ressourcen ausgeführt werden können, bietet AWS Data Pipeline ein Task Runner-Paket, das auf Ihren lokalen Hosts installiert werden kann. Dieses Paket fragt den AWS Data Pipeline-Service laufend auf zu erledigende Aufgaben ab. Wenn es Zeit ist, eine bestimmte Aktivität auf Ihre lokalen Ressourcen anzuwenden, z. B. eine gespeicherte Datenbankprozedur oder Datenbanksicherung auszuführen, übergibt AWS Data Pipeline den entsprechenden Befehl an den Task Runner. Um die hohe Verfügbarkeit von Pipeline-Aktivitäten sicherzustellen, können Sie optional mehrere Task Runner zuweisen, um eine Abfrage auf einem bestimmten Auftrag durchzuführen. Sollte anschließend ein Task Runner nicht verfügbar sein, können die anderen seine Aufgabe erledigen.

F: Wie installiere ich einen Task Runner auf meinen lokalen Hosts?

Führen Sie die folgenden Schritte aus, um das Task Runner-Paket auf Ihren lokalen Hosts zu installieren:

  1. Laden Sie das AWS Task Runner-Paket herunter.
  2. Erstellen Sie eine Konfigurationsdatei, die Ihre AWS-Anmeldeinformationen enthält.
  3. Starten Sie den Task Runner-Agenten über den folgenden Befehl:
    java -jar TaskRunner-1.0.jar --config ~/credentials.json --workerGroup=[myWorkerGroup]
  4. Legen Sie beim Bestimmen von Aktivitäten die für [myWorkerGroup] auszuführende Aktivität fest, um diese an zuvor installierte Hosts zu senden.

F: Wie sehen die ersten Schritte mit AWS Data Pipeline aus?

Sie müssen für die ersten Schritte mit AWS Data Pipeline in der AWS Management Console zunächst die Registerkarte "AWS Data Pipeline" öffnen. Hier können Sie mit einem einfachen grafischen Editor eine Pipeline erstellen.

F: Wozu kann ich AWS Data Pipeline verwenden?

Mit AWS Data Pipeline können Sie regelmäßige Datenverarbeitungsaufträge planen und verwalten. Sie können mithilfe dieser Lösung einfache Systeme ersetzen, die derzeit mit unzuverlässigen auf CRON basierenden Lösungen verwaltet werden, oder komplexe mehrstufige Datenverarbeitungsaufträge entwickeln.

F: Gibt es Beispiel-Pipelines, die ich nutzen kann, um AWS Data Pipeline zu testen?

Ja, in unserer Dokumentation finden Sie Beispiel-Pipelines. Darüber hinaus bietet die Konsole mehrere Pipeline-Vorlagen für die ersten Schritte.

F: Wie viele Pipelines kann ich in AWS Data Pipeline erstellen?

Ihr Konto unterstützt standardmäßig 100 Pipelines.

F: Gibt es Einschränkungen dahingehend, was eine einzelne Pipeline enthalten darf?

Jede von Ihnen erstellte Pipeline kann standardmäßig 100 Objekte aufweisen.

F: Können diese Einschränkungen geändert werden?

Ja. Wenn Sie diese Einschränkungen ändern möchten, wenden Sie sich an uns.

F: Sind Steuern bereits in den Preisen enthalten?

Falls nicht anders angegeben, gelten unsere Preise zuzüglich anfallender Steuern und Abgaben, u. a. MwSt. und Umsatzsteuer. Bei Kunden mit japanischer Rechnungsadresse unterliegt die Nutzung von AWS-Services der japanischen Verbrauchssteuer. Weitere Informationen.