Viele Kunden von Amazon Web Services (AWS) benötigen eine Lösung zur Speicherung und Analyse von Daten, die mehr Agilität und Flexibilität bietet als herkömmliche Datenmanagementsysteme. Ein Data Lake ist eine neue und immer beliebtere Art der Datenspeicherung und -analyse, da es Unternehmen dazu befähigt, verschiedenste Datentypen aus vielen unterschiedlichen Quellen zu verwalten, und diese Daten strukturiert und unstrukturiert in einem zentralen Repository zu speichern.
Die AWS-Cloud bietet viele der Bausteine, die bei Kunden für die Implementierung eines sicheren, flexiblen und kosteneffizienten Data Lake erforderlich sind. Dazu gehören AWS Managed Services, welche die Aufnahme, Speicherung, Suche, Verarbeitung und Analyse strukturierter wie unstrukturierter Daten vereinfachen. Um unsere Kunden beim Aufbau von Data Lakes zu unterstützen, bietet AWS Data Lake on AWS an, das eine hoch verfügbare, kostengünstige Data Lake-Architektur in der AWS Cloud zusammen mit einer benutzerfreundlichen Konsole zum Suchen und Anfordern von Datensätzen bereitstellt.
Übersicht
Data Lake on AWS konfiguriert automatisch die zentralen AWS-Services, die für viele Aufgaben erforderlich sind. Dazu gehören das einfache Markieren, Suchen, Teilen, Transformieren, Analysieren und Verwalten bestimmter Datenteilmengen innerhalb eines Unternehmen oder bei der Zusammenarbeit mit anderen externen Benutzern. Die Anleitung stellt eine Konsole bereit, auf die Benutzer zugreifen können, um nach verfügbaren Datensätzen für ihre Geschäftsanforderungen zu suchen. Sie schließt auch eine Verbundsvorlage ein, mit der Sie eine Version der Lösung starten können, die für die Integration in Microsoft Active Directory bereit ist.
Das folgende Diagramm zeigt die Data-Lake-Architektur, die Sie mit dem Beispielcode auf GitHub erstellen können.

Architektur für Data Lake on AWS
Der Code konfiguriert eine Reihe von AWS-Lambda-Microservices (Funktionen), Amazon OpenSearch Service für robuste Suchfunktionen, Amazon Cognito für die Benutzerauthentifizierung, AWS Glue für die Datentransformation und Amazon Athena für die Analyse.
Data Lake on AWS nutzt die Sicherheit, Langlebigkeit und Skalierbarkeit von Amazon S3 zur Verwaltung eines beständigen Katalogs von Organisationsdatensätzen, und Amazon DynamoDB zur Verwaltung der entsprechenden Metadaten. Sobald ein Datensatz katalogisiert ist, stehen seine Attribute und beschreibenden Tags für die Suche zur Verfügung. Benutzer können in der Konsole verfügbare Datensätze durchsuchen und eine Liste der Daten erstellen, auf die sie Zugriff benötigen. Sie erfasst die Datensätze, die ein Benutzer auswählt, und generiert beim Auschecken des Benutzers eine Manifest-Datei mit sicheren Zugriffslinks auf den gewünschten Inhalt.
Weitere Ressourcen
Funktionen
Datenzugriffsflexibilität
Verwaltete Speicherebene
Verbund-Anmeldung
Befehlszeilenschnittstelle
Benutzeroberfläche

Durchsuchen Sie unsere Bibliothek der AWS-Lösungen, um Antworten auf häufige Architekturprobleme zu erhalten.

Finden Sie AWS-Partner, die Ihnen den Einstieg erleichtern.

Präskriptive Architekturdiagramme, Beispielcode und technische Inhalte für häufig vorkommende Anwendungsfälle finden.