Referenzbereitstellung

Data Lake Foundation on AWS

Nutzung von AWS-Diensten, einschließlich Amazon Redshift, Amazon Kinesis, AWS Glue und Amazon SageMaker

Diese Lösung richtet ein Data-Lake-Fundament ein, das verschiedene Amazon Web Services (AWS) Services wie Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Amazon Kinesis, Amazon Athena, AWS Glue, Amazon Elasticsearch Service (Amazon ES), Amazon SageMaker und Amazon QuickSight integriert.

Das Data-Lake-Fundament nutzt diese AWS-Services, um Funktionen wie Datenübermittlung, Ingest-Verarbeitung, Datensatzverwaltung, Datentransformation und -Analyse, Aufbau und Einsatz von maschinellen Lernwerkzeugen, Suche, Veröffentlichung und Visualisierung bereitzustellen. Wenn dieses Fundament installiert ist, können Sie den Data Lake um ISV- und SaaS-Tools erweitern.

Diese Referenzarchitektur kann mithilfe von AWS-CloudFormation-Vorlagen automatisiert bereitgestellt werden, die Sie an Ihre Bedürfnisse anpassen können.

Diese Lösung wurde von AWS entwickelt.

  •  Ihre Möglichkeiten
  • Diese Lösung sieht Folgendes vor:

    • Eine Virtual Private Cloud (VPC), die sich über zwei Availability Zones erstreckt und zwei öffentliche und zwei private Subnetze umfasst.*
    • Ein Internet-Gateway für den Zugang zum Internet.*
    • In den öffentlichen Subnetzen verwaltete NAT-Gateways, die den ausgehenden Internetzugang für Ressourcen in den privaten Subnetzen ermöglichen.*
    • In den öffentlichen Subnetzen Linux-Bastion-Hosts in einer Auto Scaling-Gruppe, um in öffentlichen und privaten Subnetzen den bei EC2-Instances eingehenden Datenverkehr über Secure Shell (SSH) zu ermöglichen.*
    • Rollen in AWS Identity and Access Management (IAM) zur Festlegung von Berechtigungen für den Zugriff auf AWS-Ressourcen, z. B. das Anzeigen und Bearbeiten kuratierter Datensätze durch Amazon Redshift und Amazon Athena.
    • In den privaten Subnetzen Amazon Redshift zur Datenaggregation, Analyse, Transformation und Erstellung neuer kuratierter und veröffentlichter Datensätze.
    • Eine Amazon SageMaker-Instance, auf die Sie mittels AWS-Authentifizierung zugreifen können.
    • Integration mit anderen Amazon-Services wie Amazon S3, Amazon Athena, AWS Glue, AWS Lambda, Amazon ES mit Kibana, Amazon Kinesis und Amazon QuickSight.

    * Die Vorlage, die die Lösung in einer vorhandenen VPC bereitstellt, überspringt die mit Sternchen gekennzeichneten Aufgaben und fordert Sie auf, Ihre vorhandene VPC-Konfiguration anzugeben.

  •  Bereitstellungsanleitung
  • Zur Bereitstellung dieser Lösung befolgen Sie bitte die Anweisungen im Bereitstellungs-Leitfaden, die diese Schritte beinhalten.

    1. Melden Sie sich bei Ihrem AWS Konto an. Falls Sie noch kein AWS-Konto haben, registrieren Sie sich bitte unter https://aws.amazon.com.
    2. Starten Sie die Lösung. Die Bereitstellung des Stapels dauert etwa 50 Minuten. Bevor Sie den Stack erstellen, wählen Sie in der oberen Symbolleiste die AWS-Region aus. Wählen Sie eine der folgenden Optionen:
    3. Testen Sie Ihre Installation, indem Sie die von der Lösung erstellten Ressourcen überprüfen.

    Die Parameter der Lösung können von Ihnen individuell angepasst werden. So können Sie zum Beispiel Ihr Netzwerk konfigurieren oder die Einstellungen für Amazon Redshift, Kinesis und Elasticsearch anpassen.  

    Amazon kann Informationen zur Benutzerbereitstellung an den AWS-Partner weitergeben, der mit AWS an dieser Lösung zusammengearbeitet hat.  

  •  Kosten und Lizenzen
  • Sie tragen die Kosten für die AWS-Services und alle Lizenzen von Drittanbietern, die bei der Nutzung dieser Lösung verwendet werden. Für die Nutzung der Lösung fallen keine zusätzlichen Kosten an.

    Diese Lösung umfasst Konfigurationsparameter, die Sie anpassen können. Einige dieser Einstellungen, beispielsweise der Instance-Typ, wirken sich auf die Bereitstellungskosten aus. Kostenvoranschläge finden Sie auf den Preisseiten der einzelnen AWS-Services, die Sie nutzen. Preisänderungen sind vorbehalten.

    Tipp: Erstellen Sie nach dem Bereitstellen einer Lösung AWS-Kosten- und -Nutzungsberichte, um die damit verbundenen Kosten zu verfolgen. Diese Berichte liefern Abrechnungsmetriken an einen Amazon Simple Storage Service (Amazon S3)-Bucket in Ihrem Konto. Sie liefern Kostenschätzungen auf der Grundlage der Nutzung während jedes Monats und aggregieren die Daten am Ende des Monats. Weitere Informationen finden Sie unter  Was sind AWS-Kosten- und Nutzungsberichte?
  •  Ressourcen
  • Diese Lösung steht im Zusammenhang mit einer im Lösungsraum präsentierten Lösung, die ein Briefing, ein optionales Beratungsangebot der AWS-Kompetenzpartner und eine AWS-Beteiligung an PoC-Projekten (für den Proof of Concept) umfasst. Weitere Informationen finden Sie unter Lösungsraum.