AWS Quick Starts – Sofort einsatzfähige Lösungen

Informatica Data Lake Management auf AWS

Erstellung einer Data-Lake-Umgebung mithilfe von Informatica-Technologien und AWS-Diensten

Diese Quick-Start-Version erstellt eine Data-Lake-Umgebung in der Amazon Web Services (AWS) Cloud durch Einrichtung der Informatica Data Lake Management-Lösung und von AWS-Diensten wie Amazon EMR, Amazon Redshift, Amazon Simple Storage Service (Amazon S3) und Amazon Relational Database Service (Amazon RDS).

Ein Data Lake verwendet ein einzelnes, auf Hadoop basierendes Datenrepository, das Sie bei der Verwaltung von Datenangebot und -nachfrage unterstützt. Die Lösung von Informatica integriert, organisiert, verwaltet, steuert und sichert große Mengen an strukturierten und unstrukturierten Daten. Die Lösung liefert umsetzbare, zweckmäßige, zuverlässige und sichere Informationen zur Gewinnung von betriebswirtschaftlichen Erkenntnissen.

Diese Quick-Start-Version konfiguriert die AWS-Infrastruktur, richtet die Komponenten des Informatica Data Lake Management-Systems ein und bettet zur Speicherung und Verarbeitung von Metadaten Hadoop-Cluster automatisch in die Virtual Private Cloud (VPC) ein. Sie weist die Verbindung zum Amazon EMR-Cluster für das Hadoop Distributed File System (HDFS) und für Hive zu. Sie baut auch Verbindungen auf, um das Scannen von Amazon S3- und Amazon Redshift-Umgebungen als Teil des Data Lakes zu ermöglichen.

datalake_icon_crs_informatica

Dieser Quick Start wurde von Informatica in Zusammenarbeit mit AWS entwickelt. Informatica ist ein
Partner von APN.

  •  Leistungen
  •  Einrichtungsanleitung
  •  Kosten und Lizenzen
  •  Ressourcen
  •  Leistungen
  • Wenn Sie sich für die Einrichtung des Quick Starts in einer neuen VPC entscheiden, richtet dieser die folgende AWS-Infrastruktur für den Data Lake ein:

    • Eine Virtual Private Cloud (VPC) mit öffentlichen und privaten Subnetzen in zwei Availability Zones.
    • Ein Internet-Gateway für den Zugang zum Internet.
    • In den öffentlichen Subnetzen verwaltete NAT-Gateways (Managed Network Address Translation), die mit einer elastischen IP-Adresse für ausgehende Internetverbindungen konfiguriert sind.

    Diese Quick-Start-Version installiert und konfiguriert auch die folgenden Informatica-Komponenten:

    • Informatica-Domäne, die die zentrale Verwaltungseinheit der Informatica-Plattform darstellt.
    • Modell-Repository-Service, eine relationale Datenbank, die alle Metadaten für Projekte speichert, die mit den Client-Tools von Informatica erstellt wurden. Die Informatica-Domäne und die Informatica Model Repository-Datenbanken werden auf Amazon RDS mit Oracle gehostet, das Verwaltungsaufgaben wie Backups, Patch-Management und Replikation übernimmt.
    • Datenintegrationsservice, der Anfragen zur Übertragung von Big Data Integration, Big Data Quality und Profiling-Aufträgen zur Verarbeitung an den Hadoop-Cluster verwaltet.
    • Content-Management-Service, der Referenzdaten verwaltet. Dieser stellt dem Data Integration Service und Informatica Developer Informationen über Referenzdaten zur Verfügung.
    • Analyse-Dienst, der das Analysetool in der Informatica-Domäne ausführt. Der Analyse-Dienst verwaltet die Verbindungen zwischen den Servicekomponenten und den Benutzern, die sich im Analysetool anmelden.
    • Profiling, das Ihnen dabei hilft, den Inhalt, die Qualität und die Struktur von Datenquellen einer Anwendung, eines Schemas oder eines Unternehmens zu finden.
    • Business-Glossar, das aus Online-Glossaren von Geschäftsbegriffen und Richtlinien besteht, die wichtige Konzepte innerhalb einer Organisation definieren.
    • Katalogdienst, der den Enterprise Data-Katalog betreibt und Verbindungen zwischen Servicekomponenten und externen Anwendungen verwaltet.
    • Ein eingebetteter Hadoop-Cluster, der Hortonworks verwendet und HDFS, Hbase, Yarn und Solr betreibt.
    • Informatica-Cluster-Service, der alle Hadoop-Dienste, den Apache Ambari-Server und die Apache Ambari-Agenten auf dem integrierten Hadoop-Cluster ausführt und verwaltet.
    • Metadaten und Katalog, die den Metadatenpersistenzspeicher, den Suchindex und die Diagrammdatenbank in einem eingebetteten Hadoop-Cluster enthalten.
  •  Einrichtungsanleitung
  • Ihre Data Lake-Umgebung auf AWS können Sie in nur ca. 20 Minuten erstellen. Befolgen Sie dazu die folgenden Schritte:

    1. Falls Sie noch kein AWS-Konto haben, registrieren Sie sich bitte unter https://aws.amazon.com.
    2. Laden Sie Ihre Informatica-Lizenz in einen S3-Bereich hoch. Um sich für eine Demo-Lizenz anzumelden, wenden Sie sich bitte an Informatica.
    3. Führen Sie den Quick Start aus. Die Einrichtung nimmt ca. zwei Stunden in Anspruch. Hierbei können zwischen den folgenden beiden Optionen wählen:
    4. Überwachen Sie die Erstellung der Cluster-Instanz und der Informatica-Domäne.
    5. Verwenden Sie die Quick-Start-Output-links, um Informatica Developer für Ihre Datenintegrationsaufgaben herunterzuladen und zu installieren.

    Der Quick Start umfasst Parameter, die Sie an Ihre Bedürfnisse anpassen können. So können Sie zum Beispiel Ihr Netzwerk konfigurieren oder die Softwareeinstellungen von Amazon EMR, Amazon Redshift, Amazon RDS und Informatica ändern.

  •  Kosten und Lizenzen
  • Die Kosten der zur Ausführung dieser Quick-Start-Referenzinstallation erforderlichen AWS-Dienste sind allein von Ihnen zu tragen. Für die Nutzung des Quick Starts fallen keine zusätzlichen Kosten an.

    Die AWS CloudFormation-Vorlagen für diesen Quick Start enthalten Konfigurationsparameter, die Sie individuell an Ihre Bedürfnisse anpassen können. Einige dieser Einstellungen, beispielsweise der Instance-Typ, wirken sich auf die Bereitstellungskosten aus. Nähere Informationen für überschlägige Kostenkalkulationen finden Sie auf den Seiten mit den Preisen für die von Ihnen zu nutzenden AWS-Dienste.

    Für diese Quick-Start-Version ist eine Lizenz für die Installation der Informatica Data Lake Management-Lösung erforderlich. Um sich für eine Demo-Lizenz anzumelden, wenden Sie sich bitte an Informatica.

  •  Ressourcen
  • Diese Quick-Start-Referenzinstallation steht im Zusammenhang mit einer in Solution Space präsentierten Lösung, die eine Lösungsbeschreibung, ein optionales Beratungsangebot der AWS-Kompetenzpartner und eine AWS-Beteiligung an PoC-Projekten (für den Proof of Concept) umfasst. Um mehr über diese Ressourcen zu erfahren, besuchen Sie bitte Solution Space. Sehen Sie sich auch die Jumpstart-Angebote von NGDATA, Hitachi und Cognizant an.