Was ist ein Data Lakehouse?
Was ist ein Data Lakehouse?
Ein Data Lakehouse ist ein Datenmanagementsystem, das kosteneffiziente, flexible Speicherung in großem Maßstab bietet und gleichzeitig Analytik-Funktionen wie Strukturierung, Governance und Berichterstattung bietet. Es ermöglicht Ihnen, Rohdaten in einer Reihe von Formaten aus Tausenden oder sogar Hunderttausenden von Quellen kostengünstiger an einem zentralen Ort zu speichern. Die Daten können außerdem von Analytik-Tools zum Trainieren von KI-Modellen und zum Generieren von Berichten und Dashboards verwendet werden. Ein Data Lakehouse bietet viele Funktionen, mit denen Sie die Rohdaten innerhalb des Lakehouse für eine weitere Analytik verarbeiten können.
Was ist der Unterschied zwischen einem Data Lake, einem Data Warehouse und einem Data Lakehouse?
Eine Data-Lakehouse-Architektur entstand, indem die Stärken zweier traditioneller zentralisierter Datenspeicher kombiniert wurden: des Data Warehouse und des Data Lake.
Data Warehouse
Ein Data Warehouse ist ein Datenspeichersystem, das strukturierte Daten auf der Grundlage von Standard-Datenschemas speichert. Schemas sind vordefinierte Vorlagen, die das Datenformat, die Beziehung und die Struktur von Informationen in einer relationalen Datenbank bestimmen.
Unternehmen verwenden Data-Warehouse-Systeme für den schnellen Zugriff auf Datenverarbeitung, Business-Intelligence-Analytik und Unternehmensberichterstattung. Data Warehousing bietet Zugriff auf fortschrittliche Analytik-Tools, eine robuste Daten-Governance und eine einfache Bedienung für Benutzer ohne technische Kenntnisse. Sie können beispielsweise Berichte zur Marketing-Leistung mithilfe eines Dashboards im Data Warehouse abrufen.
Data Warehousing führt jedoch zusätzliche Schritte im Datenlebenszyklus ein. Um analytikbereite Erkenntnisse zu gewinnen, werden Daten mehreren ETL-Pipelines unterzogen, bevor sie in einem Data Warehouse gespeichert werden. Darüber hinaus kann ein Data Warehouse nicht mit unstrukturierten und halbstrukturierten Daten umgehen, die Workloads für künstliche Intelligenz und Machine Learning benötigen. In einer Data-Warehouse-Einrichtung sind Speicher und Rechenleistung eng miteinander verknüpft, was die Kosten für die Skalierung der Infrastruktur erhöht.
Data Lake
Ein Data Lake ist ein Speichersystem, das Daten in ihrem ursprünglichen Format speichert. Datenwissenschaftler verwenden einen Data Lake, um strukturierte, unstrukturierte und halbstrukturierte Daten zu speichern. Das Speichern von Daten in einem Data Lake ist schnell, da Informationen keine ETL-Pipeline durchlaufen. Stattdessen werden Rohdaten so gespeichert, wie sie sind. Daher kann ein Data Lake riesige Informationsmengen mit hoher Geschwindigkeit speichern, einschließlich Datenströmen in Echtzeit.
Aufgrund des Datenvolumens eignen sich Cloud Data Lakes hervorragend für Datenuntersuchung, Machine Learning und andere datenwissenschaftliche Anwendungen. Ein Data Lake lässt sich aufgrund seines kostengünstigen Speicher-Hostings auch günstiger skalieren.
Im Gegensatz zu einem Data Warehouse erfordert der Zugriff auf Daten, die in einem Data Lake gespeichert sind, technisches Fachwissen, was den Datenzugriff auf eine kleinere Benutzergruppe beschränkt. Das bedeutet, dass nur Benutzer, die sich mit Datenwissenschaft auskennen, die Rohdaten extrahieren, bearbeiten und analysieren können, um Geschäftserkenntnisse zu gewinnen. Darüber hinaus kann ein nicht verwalteter Data Lake zu Datensümpfen führen. Datensümpfe sind ein Zustand unorganisierter Daten, der es schwieriger macht, aussagekräftige Erkenntnisse zu gewinnen.
Data Lakehouse
Ein Data Lakehouse ist eine einheitliche Datenarchitektur, die die Vorteile eines Data Warehouse und eines Data Lakes kombiniert. Es bietet leistungsstarken, erschwinglichen und governancefreundlichen Speicherplatz für verschiedene Datentypen.
Im Gegensatz zu einem Data Warehouse kann ein Data Lakehouse halbstrukturierte und unstrukturierte Daten für Machine Learning speichern. Darüber hinaus besteht die Data-Lakehouse-Architektur aus SQL-Analytik-Tools, die Geschäftsführer für die Berichterstattung und das Extrahieren umsetzbarer Erkenntnisse verwenden.
Was sind die wichtigsten Features eines Data Lakehouse?
Data Lakehouses bieten Datenverwaltungs-Features, mit denen Unternehmen skalierbare, komplexe Datenverarbeitungszentren mit niedriger Latenz aufbauen können. Im Folgenden stellen wir einige wichtige Features eines Data Lakehouse vor.
Unterstützt verschiedene Datentypen und Workloads
Data Lakehouses können verschiedene Datentypen speichern, darunter Text, Bilder, Videos und Audiodateien, ohne zusätzliche Transformationsschritte oder ein starres Schema. Dies ermöglicht eine schnelle Datenerfassung und gewährleistet die Aktualität der Daten für verbundene Anwendungen.
Zur Unterstützung der Datenvielfalt speichert ein Data Lakehouse die Rohdaten in einem objektbasierten Speicher. Objektbasierter Speicher ist eine Art von Datenspeicherarchitektur, die für die Verarbeitung großer Mengen unstrukturierter Daten optimiert wurde.
Unterstützung von Transaktionen
Ein Data Lakehouse bietet Datenverwaltungs-Features zum Speichern von ACID-konformen Transaktionen, ähnlich denen in herkömmlichen Datenbanken. ACID steht für Atomarität, Konsistenz, Isolation und Dauerhaftigkeit.
- Atomarität betrachtet alle Datentransaktionen als eine Einheit, was bedeutet, dass sie entweder erfolgreich implementiert wurden oder nicht.
- Konsistenz bezieht sich auf das vorhersehbare Verhalten der Datenbank, das beim Aktualisieren einer bestimmten Datentabelle auftritt. Jede Akutalisierung folgt vordefinierten Regeln, die die Datenkonsistenz sicherstellen.
- Durch die Isolierung können mehrere Transaktionen durchgeführt werden, ohne sich gegenseitig zu stören. Selbst wenn mehrere Benutzer die Datenbank gleichzeitig aktualisieren, wird jeder Vorgang unabhängig ausgeführt, was bedeutet, dass eine Transaktion endet, bevor die nächste beginnt.
- Dauerhaftigkeit ist die Fähigkeit der Datenbank, die Beibehaltung und Speicherung von Änderungen sicherzustellen, selbst wenn das System ausfällt.
Zusammen gewährleistet ACID die Datenintegrität und ermöglicht es Softwareteams, Anwendungen zu entwickeln, die auf einen zuverlässigen Transaktionsdatenspeicher basieren.
Streaming-Aufnahme
Datenströme sind ein kontinuierlicher Informationsfluss, der aus Datenquellen wie Geräten des Internet der Dinge (IoT), Finanztransaktionen und Anwendungsservices stammt.
Einige Anwendungen erfordern Data Streaming, um Datenänderungen nahezu in Echtzeit widerzuspiegeln und zu visualisieren. Die Data-Lakehouse-Architektur kann Datenströme aufnehmen und sie für benutzerorientierte Anwendungen verfügbar machen. Darüber hinaus können Datenwissenschaftler Analytik-Tools auf der Grundlage von Datenströmen erstellen und diese mit Diagrammen, Tabellen und Grafiken visualisieren.
Null-ETL-Integration
Null ETL ist ein Datenprozess, der komplexe Datentransformations-Pipelines beim Verschieben von Daten umgeht. Eine Data-Lakehouse-Infrastruktur ermöglicht eine Null-ETL-Integration.
Herkömmlicherweise bauen Unternehmen ihre Workloads auf einem Data Warehouse und einem Data Lake auf. Für diese Datenkonfigurationen sind zusätzliche ETL-Pipelines erforderlich, um Daten abzufragen und zu transformieren. Da keine ETL-Integration erforderlich ist, können Datenwissenschaftler verschiedene Datensilos abfragen, ohne zusätzliche Data Pipelines aufbauen zu müssen.
Wenn ein Data Lakehouse Daten aufnimmt, wandelt es die Daten automatisch in Formate um, die den Anforderungen der Geschäftsanalytik entsprechen. Beispielsweise unterstützt Amazon Redshift die Null-ETL-Integration in Amazon Aurora. Redshift ist ein Data Warehouse, während Aurora ein relationales Datenbankmanagementsystem ist. Bei der Integration werden die von Aurora aufgenommenen Daten innerhalb von Sekunden automatisch in Redshift repliziert. Auf diese Weise können Unternehmen schneller Erkenntnisse gewinnen und gleichzeitig eine einfache, kostengünstige Dateninfrastruktur aufrechterhalten.
Vereinheitlichte Analytik
Ein Data Lakehouse bietet eine einheitliche Datenplattform für den Zugriff auf alle gespeicherten Daten. Es hilft Datenarchitekten dabei, Datenduplizierung, Inkonsistenz und Fragmentierung über mehrere Systeme hinweg zu überwinden.
Ein weiterer wichtiger Vorteil zentralisierter Analytik besteht darin, unnötige Datenverschiebungen zwischen Cloud-Speichern zu vermeiden. Anstatt isolierte Daten abzufragen, speichern, analysieren und teilen Datenteams Daten über eine einzige Schnittstelle, die mit dem Data Lakehouse verbunden ist. Sie können beispielsweise unstrukturierte Daten für einen Workload mit Machine Learning abrufen und Marketing-Leistungsberichte aus einer einzigen Datenkopie erstellen.
Abfrage-Editor
Datenanalysten, Ingenieure für Machine Learning und Datennutzer können mithilfe eines SQL-Abfrage-Editors problemlos auf Daten in einem Data Lakehouse zugreifen. Sie können SQL-Befehle für Datenanalyse und Visualisierung erstellen, historische Daten durchsuchen, Datenbank-Schemas erstellen und vieles mehr. Ein Abfrage-Editor verbessert auch die Zusammenarbeit, da Dateningenieure die von ihnen erstellten Abfragen einfach teilen können.
ML/KI-Unterstützung
Data Lakehouses sind für die Erstellung, Tests und Skalierung von Workloads für künstliche Intelligenz und Machine Learning(KI/ML) konzipiert. Viele Data-Lakehouse-Anbieter bieten nicht nur direkten Zugriff auf unstrukturierte Daten, sondern bieten auch Bibliotheken, Tools und Analytik für Machine Learning an, die die KI-Entwicklung vereinfachen.
Amazon SageMaker Lakehouse lässt sich beispielsweise nahtlos in Amazon SageMaker Unified Studio integrieren und bietet Zugriff auf Tools und Analytik zur Beschleunigung von KI/ML-Workflows.
Wie funktioniert ein Data Lakehouse?
Ein Data Lakehouse kombiniert die fortschrittlichen Analytik-Funktionen von Data Warehouses mit der Flexibilität von Data Lakes und bietet so eine skalierbare, erschwingliche und leistungsstarke Datenplattform. Anstatt separate Data Lakes und Data Warehouse-Infrastrukturen zu verwalten, entscheiden sich Unternehmen für ein Data Lakehouse, um schneller Geschäftserkenntnisse zu erhalten.
Das Data Lakehouse nimmt Daten aus verschiedenen Ressourcen auf, organisiert sie intern und stellt die Daten verschiedenen Datennutzern in verschiedenen Formaten zur Verfügung. Darüber hinaus ist die Rechenleistung eines Data Lakehouse vom Speicher getrennt. Dank getrennter Speicher- und Rechenleistung können Sie diese Funktionen unabhängig voneinander skalieren, um die Kosteneinsparungen zu maximieren.
Im Folgenden teilen wir die Datenebenen mit, die ein Data Lakehouse bilden.
Aufnahme-Ebene
Die Aufnahme-Ebene verbindet das Data Lakehouse mit verschiedenen Arten von Datenquellen, einschließlich Anwendungsprotokollen, Datenbanken und Social-Media-Feeds. Auf dieser Ebene werden die Daten im Originalformat beibehalten.
Speicherebene
Die Speicherebene empfängt eingehende Rohdaten und speichert sie in einem kostengünstigen, skalierbaren Speicher. In einer Data Lakehouse-Einrichtung ist diese Ebene häufig mit einem Cloud-Objektspeicher verknüpft. Ein Objektspeicher unterstützt verschiedene Arten von Daten, einschließlich strukturierter, halbstrukturierter und unstrukturierter Daten.
Je nach Anwendungsfall werden einige Daten nach der Speicherung im Objektspeicher einer Transformation unterzogen. Wenn Sie beispielsweise ein Machine-Learning-Modell anhand der aufgenommenen Daten trainieren möchten, transformiert das Data Lakehouse die Daten und speichert sie im Parquet-Format. Parquet ist ein offenes Dateiformat, mit dem strukturierte Daten effizient gespeichert und verarbeitet werden können, indem sie in Spalten unterteilt werden.
Staging-Ebene
Die Staging-Ebene oder Metadaten-Ebene bietet Schemaunterstützung für die Steuerung, Organisierung und Optimierung der im Data Lakehouse gespeicherten Daten. Auf dieser Ebene können Sie Richtlinien definieren, um die Datenqualität sicherzustellen, und überprüfbare Pfade für Compliance-Zwecke erstellen. Darüber hinaus können Datenteams mithilfe von ACID-Transaktionen, Datei-Indizierung, Daten-Versionsverwaltung und Caching zuverlässige Daten-Workflows erstellen, die denen in einem herkömmlichen Data Warehouse ähneln.
API-Ebene
Die API-Ebene (Anwendungsprogrammierschnittstelle) ermöglicht es Softwareentwicklern und Anwendungen, im Data Lakehouse gespeicherte Daten abzufragen. Sie bietet präzisen Zugriff auf Daten, sodass erweiterte Analytik programmgesteuert aus den Daten erstellt werden können. Softwareteams können beispielsweise API-Aufrufe tätigen, um Datenströme in Echtzeit abzurufen, um das Dashboard einer Anlageanwendung mit Strom zu versorgen.
Semantische Ebene
Die semantische Ebene ist die oberste Ebene des Data Lakehouse. Sie wird auch als Datenverbrauchsebene bezeichnet und besteht aus Datenanalytik-Tools und Anwendungen, die den Zugriff auf gespeicherte Daten und Schemas ermöglichen. Geschäftsbenutzer können mit den Tools, die sie auf dieser Ebene finden, Berichte erstellen, Erkenntnisse abfragen und andere Datenanalysen durchführen.
Wie kann AWS Ihre Anforderungen an Data Lakehouses unterstützen?
Amazon SageMaker Lakehouse ist ein Data Lakehouse, das Unternehmen nutzen, um Exabytes an Daten für Geschäftserkenntnisse zu verarbeiten und KI-Workloads zu unterstützen. Amazon SageMaker Lakehouse ist tief in die AWS-Datenspeicher-, -Analytik und Machine-Learning-Services integriert, um Ihnen zu helfen:
- Greifen Sie auf Daten vor Ort zu, um Analytik nahezu in Echtzeit durchzuführen
- Erstellen Sie Modelle für künstliche Intelligenz und Machine Learning auf einem einzigen Datenhub
- Greifen Sie sicher auf Daten zu, kombinieren und teilen Sie sie mit minimalem Verschieben oder Kopieren
Mit einer Architektur, die Rechenleistung und Speicher für eine effiziente Skalierung trennt, bietet Amazon SageMaker Lakehouse ein besseres Preis-Leistungs-Verhältnis als andere Cloud-Data-Lakehouses.
Amazon SageMaker Lakehouse lässt sich in AWS-Data-Warehouses und Data Lakes integrieren:
- Amazon Redshift ist eine Data-Warehouse-Lösung, die ein unübertroffenes Preis-Leistungs-Verhältnis in großem Maßstab mit SQL für Ihr Data Lakehouse bietet
- Amazon S3 ist ein Data-Lake-Objektspeicher zum Abrufen beliebiger Datenmengen aus allen Speicherorten
Beginnen Sie mit dem Data Lakehouse in AWS, indem Sie noch heute ein kostenloses Konto erstellen.