Wozu dient diese AWS-Lösungsimplementierung?

Viele Kunden von Amazon Web Services (AWS) benötigen eine Lösung zur Speicherung und Analyse von Daten, die mehr Agilität und Flexibilität bietet als herkömmliche Datenmanagementsysteme. Ein Data Lake ist eine neue und immer beliebtere Art der Datenspeicherung und -analyse, da es Unternehmen dazu befähigt, verschiedenste Datentypen aus vielen unterschiedlichen Quellen zu verwalten, und diese Daten strukturiert und unstrukturiert in einem zentralen Repository zu speichern.

Die AWS-Cloud bietet viele der Bausteine, die bei Kunden für die Implementierung eines sicheren, flexiblen und kosteneffizienten Data Lake erforderlich sind. Dazu gehören AWS Managed Services, welche die Aufnahme, Speicherung, Suche, Verarbeitung und Analyse strukturierter wie unstrukturierter Daten vereinfachen. Um unsere Kunden beim Aufbau von Data Lakes zu unterstützen, bietet AWS die Data Lake-Lösung, eine automatisierte Referenzimplementierung, die eine hochverfügbare, kosteneffektive Data Lake-Architektur in der AWS Cloud zusammen mit einer benutzerfreundlichen Konsole zum Suchen und Anfordern von Datensätzen bereitstellt.

Version 2.2 der Lösung verwendet die aktuellste Node.js-Laufzeit. Version 2.1 verwendet die Laufzeit von Node.js 8.10, die das Ende der Lebensdauer am 31. Dezember 2019 erreicht. Um auf Version 2.2 zu aktualisieren, müssen Sie die Lösung als neuen Stack bereitstellen. Weitere Informationen finden Sie im Bereitstellungshandbuch.

Übersicht über die Implementierung der AWS-Lösung

AWS bietet eine Data-Lake-Lösung an, mit der die zentralen AWS-Services, die zum problemlosen Markieren, Suchen, Teilen, Transformieren, Analysieren und Verwalten bestimmter Datenteilmengen in einem Unternehmen oder bei der Zusammenarbeit mit anderen externen Benutzern erforderlich sind, automatisch konfiguriert werden. Die Lösung stellt eine Konsole bereit, auf die Benutzer zugreifen können, um nach verfügbaren Datensätzen für ihre Geschäftsanforderungen zu suchen. Die Lösung schließt auch eine Verbundsvorlage ein, mit der Sie eine Version der Lösung starten können, die für die Integration in Microsoft Active Directory bereit ist.

Das folgende Diagramm zeigt die Data Lake-Architektur, die Sie mithilfe des Einführungsleitfadens der Lösung und der dazugehörigen AWS CloudFormation-Vorlage automatisch bereitstellen können.

Data Lake-Lösung | Architekturdiagramm
 Zum Vergrößern klicken

Lösungsarchitektur für Data Lake on AWS

Die AWS CloudFormation-Vorlage konfiguriert die wichtigsten AWS-Services der Lösung, zu denen eine Reihe von AWS Lambda-Microservices (Funktionen), Amazon Elasticsearch für robuste Suchfunktionen, Amazon Cognito für die Benutzerauthentifizierung, AWS Glue für die Datentransformation sowie Amazon Athena für die Analyse gehören.

Die Lösung nutzt die Sicherheit, Langlebigkeit und Skalierbarkeit von Amazon S3 zur Verwaltung eines beständigen Katalogs von Organisationsdatensätzen, und Amazon DynamoDB zur Verwaltung der entsprechenden Metadaten. Sobald ein Datensatz katalogisiert ist, stehen seine Attribute und beschreibenden Tags für die Suche zur Verfügung. Benutzer können in der Konsole der Lösung verfügbare Datensätze durchsuchen und eine Liste der Daten erstellen, auf die sie Zugriff benötigen.

Die Lösung erfasst die Datensätze, die ein Benutzer auswählt, und generiert beim Auschecken des Benutzers eine Manifest-Datei mit sicheren Zugriffslinks auf den gewünschten Inhalt.

Data Lake auf AWS

Version 2.2
Zuletzt aktualisiert: 12/2019
Autor: AWS  

Geschätzte Bereitstellungszeit: 30 Minuten

Verwenden Sie die Schaltfläche unten, um Lösungsaktualisierungen zu abonnieren.

Hinweis: Um RSS-Aktualisierungen zu abonnieren, muss für den von Ihnen verwendeten Browser ein RSS-Plugin aktiviert sein. 

Hat Ihnen diese Lösungsimplementierung geholfen?
Feedback geben 

Funktionen

Referenzimplementierung von Data Lake

Nutzen Sie diesen Data Lake als Sofortlösung oder als Referenzimplementierung, die Sie an Ihre individuellen Datenverwaltungs-, Such- und Verarbeitungsanforderungen anpassen können.

Datenzugriffsflexibilität

Nutzen Sie vordefinierte Amazon S3-URLs oder verwenden Sie eine geeignete AWS Identity and Access Management (IAM)-Rolle für den kontrollierten und direkten Zugriff auf Datensätze in Amazon S3.

Verbundsanmeldung

Optional können Sie Benutzern ermöglichen, sich über einen SAML-Identitätsanbieter (IdP) wie Microsoft Active Directory Federation Services (AD FS) anzumelden.

Verwaltete Speicherebene

Sichern und verwalten Sie die Speicherung und den Abruf von Daten in einem verwalteten Amazon S3-Bucket, und verwenden Sie einen lösungsspezifischen Schlüssel des AWS Key Management Service (KMS), um Daten im Ruhezustand zu verschlüsseln.

Befehlszeilenschnittstelle

Verwenden Sie die bereitgestellte CLI oder API zur einfachen Automatisierung von Data Lake-Aktivitäten oder integrieren Sie diese Lösung in die bestehende Datenautomatisierung für Dateneingabe, -ausgabe und -analyse.

Webbenutzeroberfläche

Die Lösung erstellt automatisch eine intuitive, webbasierte Konsolen-Benutzeroberfläche, die auf Amazon S3 gehostet und von Amazon CloudFront bereitgestellt wird. Greifen Sie auf die Konsole zu, um auf einfache Weise Benutzer und Richtlinien von Data Lake zu verwalten, Datenpakete hinzuzufügen oder zu entfernen, Datenpakete zu durchsuchen und Manifeste von Datensätzen für zusätzliche Analysen zu erstellen.
Entwickeln (Symbol)
Selbst eine Lösung bereitstellen

Durchsuchen Sie unsere Bibliothek der AWS-Lösungsimplementierungen, um Antworten auf häufige Architekturprobleme zu erhalten.

Weitere Informationen 
Einen APN-Partner suchen
Einen APN-Partner suchen

Finden Sie Beratungs- und Technologiepartner mit AWS-Zertifizierung, die Ihnen den Einstieg erleichtern.

Weitere Informationen 
Erkunden (Symbol)
Beratungsangebote für Lösungen erkunden

Durchsuchen Sie unser Portfolio mit Beratungsangeboten, um AWS-geprüfte Hilfe mit Lösungsbereitstellung zu erhalten.

Weitere Informationen