Viele Kunden von Amazon Web Services (AWS) benötigen eine Lösung zur Speicherung und Analyse von Daten, die mehr Agilität und Flexibilität bietet als herkömmliche Datenmanagementsysteme. Ein Data Lake ist eine neue und immer beliebtere Art der Datenspeicherung und -analyse, da es Unternehmen dazu befähigt, verschiedenste Datentypen aus vielen unterschiedlichen Quellen zu verwalten, und diese Daten strukturiert und unstrukturiert in einem zentralen Repository zu speichern.

Die AWS-Cloud bietet viele der Bausteine, die bei Kunden für die Implementierung eines sicheren, flexiblen und kosteneffizienten Data Lake erforderlich sind. Dazu gehören AWS Managed Services, welche die Aufnahme, Speicherung, Suche, Verarbeitung und Analyse strukturierter wie unstrukturierter Daten vereinfachen. Um unsere Kunden beim Aufbau von Data Lakes zu unterstützen, bietet AWS Data Lake on AWS an, das eine hoch verfügbare, kostengünstige Data Lake-Architektur in der AWS Cloud zusammen mit einer benutzerfreundlichen Konsole zum Suchen und Anfordern von Datensätzen bereitstellt.

Übersicht

Data Lake on AWS konfiguriert automatisch die zentralen AWS-Services, die für viele Aufgaben erforderlich sind. Dazu gehören das einfache Markieren, Suchen, Teilen, Transformieren, Analysieren und Verwalten bestimmter Datenteilmengen innerhalb eines Unternehmen oder bei der Zusammenarbeit mit anderen externen Benutzern. Die Anleitung stellt eine Konsole bereit, auf die Benutzer zugreifen können, um nach verfügbaren Datensätzen für ihre Geschäftsanforderungen zu suchen. Sie schließt auch eine Verbundsvorlage ein, mit der Sie eine Version der Lösung starten können, die für die Integration in Microsoft Active Directory bereit ist.

Das folgende Diagramm zeigt die Data-Lake-Architektur, die Sie mit dem Beispielcode auf GitHub erstellen können.

Data-Lake-Lösung | Architekturdiagramm
 Zum Vergrößern klicken

Architektur für Data Lake on AWS

Der Code konfiguriert eine Reihe von AWS-Lambda-Microservices (Funktionen), Amazon OpenSearch Service (Nachfolger von Amazon Elasticsearch Service) für robuste Suchfunktionen, Amazon Cognito für die Benutzerauthentifizierung, AWS Glue für die Datentransformation und Amazon Athena für die Analyse.

Data Lake on AWS nutzt die Sicherheit, Langlebigkeit und Skalierbarkeit von Amazon S3 zur Verwaltung eines beständigen Katalogs von Organisationsdatensätzen, und Amazon DynamoDB zur Verwaltung der entsprechenden Metadaten. Sobald ein Datensatz katalogisiert ist, stehen seine Attribute und beschreibenden Tags für die Suche zur Verfügung. Benutzer können in der Konsole verfügbare Datensätze durchsuchen und eine Liste der Daten erstellen, auf die sie Zugriff benötigen. Sie erfasst die Datensätze, die ein Benutzer auswählt, und generiert beim Auschecken des Benutzers eine Manifest-Datei mit sicheren Zugriffslinks auf den gewünschten Inhalt.

Data Lake auf AWS

Version 2.2
Zuletzt aktualisiert: 09/2021
Autor: AWS 

Hat Ihnen dieser Leitfaden geholfen?
Feedback geben 

Funktionen

Datenzugriffsflexibilität

Nutzen Sie vorsignierte Amazon-S3-URLs oder verwenden Sie eine geeignete AWS Identity and Access Management (IAM)-Rolle für einen kontrollierten, aber direkten Zugriff auf Datensätze in Amazon S3.

Verwaltete Speicherebene

Sichern und verwalten Sie die Speicherung und den Abruf von Daten in einem verwalteten Amazon-S3-Bucket, und verwenden Sie einen lösungsspezifischen Schlüssel des AWS Key Management Service (KMS), um Daten im Ruhezustand zu verschlüsseln.

Verbund-Anmeldung

Optional können Sie Benutzern ermöglichen, sich über einen SAML-Identitätsanbieter (IdP) wie Microsoft Active Directory Federation Services (AD FS) anzumelden.

Befehlszeilenschnittstelle

Verwenden Sie die bereitgestellte CLI oder API zur einfachen Automatisierung von Data-Lake-Aktivitäten oder integrieren Sie diese Anleitung in die bestehende Datenautomatisierung für Dateneingabe, -ausgabe und -analyse.

Benutzeroberfläche

Data Lake on AWS bietet eine intuitive, webbasierte Konsolen-Benutzeroberfläche, die auf Amazon S3 gehostet und von Amazon CloudFront bereitgestellt wird. Greifen Sie auf die Konsole zu, um auf einfache Weise Benutzer und Richtlinien von Data Lake zu verwalten, Datenpakete hinzuzufügen oder zu entfernen, Datenpakete zu durchsuchen und Manifeste von Datensätzen für zusätzliche Analysen zu erstellen.
Entwicklungssymbol
Bereitstellen einer eigenen Lösung

Durchsuchen Sie unsere Bibliothek der AWS-Lösungsimplementierungen, um Antworten auf häufige Architekturprobleme zu erhalten.

Weitere Informationen 
Einen APN-Partner suchen
Einen APN-Partner suchen

Finden Sie Beratungs- und Technologiepartner mit AWS-Zertifizierung, die Ihnen den Einstieg erleichtern.

Weitere Informationen 
Erkunden (Symbol)
Beratungsangebote für Lösungen erkunden

Durchsuchen Sie unser Portfolio mit Beratungsangeboten, um AWS-geprüfte Hilfe mit Lösungsbereitstellung zu erhalten.

Weitere Informationen