AWS Quick Starts – Sofort einsatzfähige Lösungen

Data Lake mit Talend Big Data Platform

Verwendung von Talend Big Data Platform, AWS-Diensten und Cognizant Best Practices

Diese Quick-Start-Version erstellt eine Data-Lake-Umgebung in der Amazon Web Services (AWS) Cloud durch Einrichtung von Talend Big Data Platform-Komponenten und von AWS-Diensten wie Amazon EMR, Amazon Redshift, Amazon Simple Storage Service (Amazon S3) und Amazon Relational Database Service (Amazon RDS).

Außerdem wird eine optionale Beispieldatenmenge und Talend-Jobs bereitgestellt, die von Cognizant Technology Solutions entwickelt wurden, um Big Data-Methoden für die Integration von Apache Spark-, Apache Hadoop-, Amazon EMR-, Amazon Redshift- und Amazon S3-Technologien in einer Data-Lake-Implementierung zu veranschaulichen.

Der Quick Start eignet sich für Benutzer, die Big Data in der Cloud auswerten oder ihre Big-Data-Initiative durch die Übernahme bewährter Methoden für die Big-Data-Integration vorantreiben möchten.

Sie können für den Data Lake wahlweise eine neue Virtual Private Cloud (VPC)-Infrastruktur erstellen, die für Sicherheit, Skalierbarkeit und hohe Verfügbarkeit konfiguriert ist, oder Ihre bestehende VPC-Infrastruktur verwenden.

datalake_icon_crs_talend

Diese Quick-Start-Version wurde von Cognizant Technology Solutions in Zusammenarbeit mit AWS entwickelt. Cognizant und Talend sind
Partner von APN.

  •  Leistungen
  •  Installation
  •  Kosten und Lizenzen
  •  Ressourcen
  •  Leistungen
  • Die Quick Start-Architektur für den Data Lake beinhaltet folgende Elemente:

    • Eine VPC, die sich über zwei Availability Zones erstreckt. Jede Availability Zone enthält zwei Subnetze: ein öffentliches Subnetz zum Aufbau einer Verbindung über das Internet und ein privates Subnetz für Talend Jobserver, Amazon Redshift, Amazon RDS und Amazon EMR. (Das private Subnetz in der zweiten Verfügbarkeitszone enthält nur die Jobserver.)*
    • Ein Internet-Gateway für den Zugang zum Internet. Dieses Gateway wird von den Bastion-Hosts verwendet, um Daten zu versenden und zu empfangen.*
    • In den öffentlichen Subnetzen verwaltete NAT-Gateways (Network Address Translation), um den ausgehenden Internetzugang für Ressourcen in den privaten Subnetzen zu ermöglichen.*
    • In einem oder in beiden öffentlichen Subnetze Linux Bastion-Hosts für den eingehenden Secure Shell (SSH)-Zugriff auf die Ressourcen in den privaten Subnetzen.* Die Anzahl der Bastions-Hosts können Sie beim Start des Quick Starts festlegen.
    • Im öffentlichen Subnetz in der ersten Availability Zone:
      • Öffentliche Talend-Server, die das Talend Administration Center (TAC) zur Verwaltung von Talend-Jobs über den Browser hosten.
      • Eine Remote-Desktop-Instance von Talend Studio, die über einen X2Go-Client für Benutzer verfügbar ist, die Talend Studio nicht auf ihren Laptops ausführen möchten.
      • Ein Nexus-Artefakt-Repository und Git-Server für die Verwaltung von Binär- und Quellkonfiguration.
      • Ein Talend-Protokollserver mit Amazon Elasticsearch Service (Amazon ES), Logstash und Kibana.
    • Im privaten Subnetz in der ersten Availability Zone:
      • Eine Amazon RDS MySQL DB-Instanz zum Hosten von Talend-Metadaten.
      • Ein Amazon EMR-Cluster mit Pig, Hive und Spark, der sich nahtlos in die Talend Big Data Platform integriert und Hadoop-Fähigkeiten im Data Lake zur Verfügung stellt.
      • Ein Amazon Redshift-Cluster zur Verwendung als Data Warehouse oder Data Mart.
    • In den privaten Subnetzen vom TAC eingeplante und in einer Auto-Scaling-Gruppe befindliche Talend Jobserver-Instances. Mit Auto Scaling können EC2-Instances automatisch nach oben oder unten verschoben werden, um auf die Nachfrage der Talend-Jobserver zu reagieren. Außerdem können Sie die gewünschte und maximale Anzahl von Instances während der Einrichtung konfigurieren.
    • In den öffentlichen Subnetzen in einer Auto-Scaling-Gruppe befindliche Talend Distant Run Job Server-Instances, die Talend Jobs im Auftrag von Talend Studio-Benutzern ausführen. Talend-Jobs können lokal in Talend Studio oder auf diesen Servern ausgeführt werden. Die Auto-Scaling-Gruppe bietet die Möglichkeit, EC2-Instances automatisch nach oben oder unten zu verschieben, um auf die Nachfrage der Talend-Jobserver zu reagieren. Außerdem können Sie die gewünschte und maximale Anzahl von Instances während der Einrichtung konfigurieren.
    • Amazon S3 zur Einspeisung von Daten für den Data Lake.

     

    *  Die Vorlage, die dafür sorgt, dass der Quick Start in einem bestehenden VPC eingerichtet wird, überspringt die mit Sternchen gekennzeichneten Vorgänge und fordert Sie zur Eingabe Ihrer bestehenden VPC-Konfiguration auf.

  •  Installation
  • Die Einrichtung Ihrer Data-Lake-Umgebung auf AWS dauert ca. eine Stunde. Befolgen Sie dazu diese einfachen Schritte:

    1. Falls Sie noch kein AWS-Konto haben, registrieren Sie sich bitte unter https://aws.amazon.com.
    2. Laden Sie Ihre Talend Big Data Platform-Lizenz in einen privaten S3-Bereich hoch. Auf der Talend-Website können Sie sich für eine 30-tägige kostenlose Testlizenz registrieren.
    3. Führen Sie den Quick Start aus. Sie können zwischen Optionen wählen:
    4. Testen Sie die Installation, indem Sie das Talend Administration Center (TAC) öffnen und die durch den Quick Start bereitgestellten Server überprüfen. Sie können auch die optionalen Talend-Jobs ausführen, mit denen Sie die vollständige Datenintegration testen. Befolgen Sie dazu bitte die Schritte im Benutzeranleitung von Talend und Cognizant.  

    Der Quick Start umfasst Parameter, die Sie an Ihre Bedürfnisse anpassen können. So können Sie zum Beispiel Ihr Netzwerk konfigurieren oder die Einstellungen für den TAC, Amazon Redshift, Nexus, und den Git-Server ändern.

  •  Kosten und Lizenzen
  • Die Kosten der zur Ausführung dieser Quick-Start-Referenzinstallation erforderlichen AWS-Dienste sind allein von Ihnen zu tragen. Für die Nutzung des Quick Starts fallen keine zusätzlichen Kosten an.

    Die AWS CloudFormation-Vorlagen für diesen Quick Start enthalten Konfigurationsparameter, die Sie individuell an Ihre Bedürfnisse anpassen können. Einige dieser Einstellungen, beispielsweise der Instance-Typ, wirken sich auf die Bereitstellungskosten aus. Nähere Informationen für überschlägige Kostenkalkulationen finden Sie auf den Seiten mit den Preisen für die von Ihnen zu nutzenden AWS-Dienste.

    Zur vollständigen Nutzung der einzurichtenden Umgebung benötigen Sie eine eigene Talend Big Data Platform-Lizenz. Zur Anforderung einer 30-tägigen kostenlosen Testlizenz füllen Sie bitte das Registrierungsformular auf der Talend-Website aus. Sie erhalten dann von Talend einen eindeutigen Lizenzschlüssel, den Sie während des Quick-Start-Einrichtungsprozesses eingeben müssen.

    Der Code für alle im Quick Start enthaltenen Talend-Jobs unterliegt den Bedingungen der Apache-Lizenz.

  •  Ressourcen
  • Diese Quick-Start-Referenzinstallation steht im Zusammenhang mit einer in Solution Space präsentierten Lösung, die eine Lösungsbeschreibung, ein optionales Beratungsangebot der AWS-Kompetenzpartner und eine AWS-Beteiligung an PoC-Projekten (für den Proof of Concept) umfasst. Um mehr über diese Ressourcen zu erfahren, besuchen Sie bitte Solution Space.