Was sind die Unterschiede zwischen einem Data Warehouse, einem Data Lake und einem Data Mart?
Was sind die Unterschiede zwischen einem Data Warehouse, einem Data Lake und einem Data Mart?
Data Warehouses, Data Lakes und Data Marts sind verschiedene Cloud-Speicherlösungen. Ein Data Warehouse speichert Daten in einem strukturierten Format. Es ist ein zentrales Repository für vorverarbeitete Daten für Analytik und Business Intelligence. Ein Data Mart ist ein Data Warehouse, das die Anforderungen einer bestimmten Geschäftseinheit abdeckt, etwa der Finanz-, Marketing- oder Vertriebsabteilung. Andererseits ist ein Data Lake ein zentrales Repository für Rohdaten und unstrukturierte Daten. Sie können Daten zunächst speichern und später verarbeiten.
Ähnlichkeiten zwischen Data Warehouses, Data Marts und Data Lakes
Unternehmen haben heutzutage Zugriff auf immer wachsende Mengen an Daten. Sie müssen die Rohdaten jedoch sortieren, filtern und analysieren, um daraus praktische Nutzen zu erzielen. Gleichzeitig müssen sie zur Einhaltung von Vorschriften strikte Verfahren zum Datenschutz und zur Sicherheit anwenden. Zum Beispiel sind hier sind einige Verfahren aufgeführt, an die sich Unternehmen halten müssen:
- Erfassen von Daten aus verschiedenen Quellen wie Anwendungen, Verkäufern, Internet der Dinge (IoT)-Sensoren und andere Drittanbieter.
- Verarbeiten der Daten in ein konsistentes, zuverlässiges und nützliches Format. Zum Beispiel könnte das Unternehmen die Daten verarbeiten, um sicherzustellen, dass sämtliche Datumsangaben im System in einem einheitlichen Format sind, oder um tägliche Berichte zusammenzufassen.
- Vorbereiten der Daten, indem XML-Dateien für Machine-Learning-Software formatiert oder Berichte für Menschen generiert werden.
Unternehmen verwenden diverse Tools und Lösungen, um ihre Datenanalytik-Ergebnisse zu erzielen. Data Warehouses, Marts und Lakes sind alles Lösungen, die die Datenspeicherung unterstützen.
Vorteile eines cloudbasierten Data Warehouse, Data Lake und Data Mart
Alle drei Speicherlösungen helfen Ihnen, die Verfügbarkeit, Zuverlässigkeit und Sicherheit Ihrer Daten zu erhöhen. Hier sind Beispiele dafür, wie Sie diese verwenden können:
- Ihre Geschäftsdaten für Analysen sicher speichern
- Ungebrenztes Datenvolumen für so lange speichern, wie Sie es benötigen
- Datensilos auflösen mit Datenintegration aus mehrfachen Geschäftsprozessen
- Historische Daten oder Legacy-Datenbanken analysieren
- Echtzeit- und Batch-Analysen durchführen
Darüber hinaus sind alle drei Lösungen kostengünstig – Sie bezahlen nur den Speicherplatz, den Sie verwenden. Sie können alle Ihre Daten speichern, sie auf Muster und Trends analysieren und die Informationen nutzen, um Ihre Geschäftsabläufe zu optimieren.
Hauptunterschiede: Data Warehouses versus Data Marts
Ein Data Warehouse ist relationale Datenbank, die Daten aus Transaktionssystemen und Geschäftsanwendungen speichert. Sämtliche Daten im Warehouse werden strukturiert oder in Tabellen vormodelliert. Die Datenstruktur und das Schema sind für die Optimierung schneller SQL-Anfragen ausgelegt. Ein Data Mart ist ein anderer Marketing-Begriff für dieselbe Technologie. Es handelt sich dabei auch um eine relationale Datenbank, aber die praktische Nutzung unterscheidet sich sehr von der eines Data Warehouses. Im Folgenden werden die wichtigsten Unterschiede angeführt.
Datenquellen
Data Warehouses haben mehrfache Quellen, sowohl intern als auch extern. Sie können Daten von irgendwo aus extrahieren, sie in ein strukturiertes Format umwandeln und in Ihr Warehouse hochladen. Data Marts haben weniger Datenquellen und sind in der Regel kleiner.
Fokus
Data Warehouses speichern typischerweise Daten aus mehreren Geschäftseinheiten. Sie sorgen für die zentrale Integration von Daten aus dem gesamten Unternehmen für umfassende Analysen. Data Marts haben sind auf ein einzelnes Thema gerichtet und sind im Wesentlichen mehr dezentralisiert. Oft filtern sie Informationen aus einem anderen, bestehenden Data Warehouse und fassen diese zusammen.
Nutzung
Die in Data Warehouses gespeicherten Daten werden von mehrfachen Benutzern und Projekten benötigt. Data Warehouses haben daher oft eine längere Lebensdauer und sind im Wesentlichen komplexer. Data Marts sind andererseits projektorientiert mit nur begrenzten Nutzen. Teams bevorzugen es, Data Marts aus dem Data Warehouse des Unternehmens zu erstellen und diese nach Abschluss des Anwendungsfalls wieder zu beenden.
Design-Ansatz
Datenwissenschaftler nutzen einen Top-Down-Ansatz bei der Gestaltung eines Data Warehouses. Sie planen zuerst die gesamte Architektur und lösen Herausforderungen, wenn diese auftreten. Mit einem Data Mart kennt der Dateningenieur jedoch bereits gewisse Details wie Werte, Datentypen und externe Datenquellen. Sie können die Implementierung von Beginn an planen und einen Bottom-Up-Ansatz zur Gestaltung des Data Marts einsetzen.
Merkmale | Data Warehouse | Data Mart |
---|---|---|
Umfang | Zentralisiert, mehrere Themenbereiche integriert |
Dezentralisiert, bestimmter Themenbereich |
Benutzer | Unternehmensweit |
Eine bestimmte Gruppe von Nutzern oder eine bestimmte Abteillung |
Datenquelle |
Viele Quellen |
Eine oder wenige Quellen, oder ein Teil von Daten, die bereits in einem Data Warehouse gesammelt werden |
Größe |
Groß, von hunderten Gigabytes bis Petabytes |
Klein, in der Regel bis zu mehreren zehn Gigabytes |
Designen | Top-Down |
Bottom-Up |
Datendetails | Vollständige, detaillierte Daten |
Kann zusammengefasste Daten enthalten |
Erfahren Sie mehr über Data Warehouses |
Erfahren Sie mehr über Data Marts |
Hauptunterschiede: Data Warehouses versus Data Lakes
Ein Data Warehouse und ein Data Lake sind zwei verwandte jedoch grundlegend unterschiedliche Technologien. Während Data Warehouses strukturierte Daten speichern, ist ein Data Lake ein zentrales Repository, in dem Sie alle Daten in beliebigem Maß speichern können. Ein Data Lake bietet mehr Speicheroptionen, ist komplexer und erfüllt andere Anwendungsfälle, als ein Data Warehouse. Im Folgenden werden die wichtigsten Unterschiede angeführt.
Datenquellen
Sowohl Data Lakes als auch Warehouses können unbegrenzte Datenquellen haben. Das Data-Warehousing erfordert jedoch, dass Sie Ihr Schema entwerfen, bevor Sie die Daten speichern können. Sie können nur strukturierte Daten in das System laden. Data Lakes hingegen haben keine solche Anforderungen. Sie können unstrukturierte und halbstrukturierte Daten wie Webserver-Protokolle, Clickstreams, Daten von sozialen Medien und Sensordaten speichern.
Vorverarbeitung
Ein Data Warehouse erfordert typischerweise eine Vorverarbeitung vor dem Speichern. Extract, Transform, Load (ETL)-Tools werden oft verwendet, um Datensätze im Vorfeld zu bereinigen, zu filtern und zu strukturieren. Data Lakes hingegen können alle Arten von Daten aufnehmen. Sie haben die Flexibilität zu wählen, ob Sie eine Vorverarbeitung durchführen möchten oder nicht. Unternehmen verwenden typischerweise Extract, Load, Transform (ETL)-Tools. Sie laden die Daten zuerst in den Data Lake und transformieren sie nur bei Bedarf.
Datenqualität
Ein Data Warehouse ist in der Regel zuverlässiger, nachdem Sie die Daten vorverarbeiten können. Mehrere Funktionen wie das Deduplizieren, Sortieren, Zusammenfassen und Verifizieren können im Vorhinein ausgeführt werden, um die Genauigkeit der Daten zu gewährleisten. Duplikate oder fehlerhafte und unverifizierte Daten können in einem Data Lake landen, wenn im Vorfeld keine Überprüfungen durchgeführt werden.
Leistung
Ein Data Warehouse ist darauf ausgelegt, die schnellste Abfrageleistung zu erzielen. Geschäftsbenutzer bevorzugen Data Warehouses, damit sie schneller Berichte erstellen können. Die Data-Lake-Architektur hingegen setzt Speichervolumen und Kosten über die Leistung. Sie erhalten ein größeres Speichervolumen bei geringeren Kosten und können immer noch bei angemessenen Geschwindigkeiten auf Daten zugreifen.
Merkmale | Data Warehouse | Data Lake |
---|---|---|
Daten | Relationale Daten aus Transaktionssystemen, Betriebsdatenbanken und branchenrelevanten Anwendungen |
Allen Daten, ob strukturiert, halbstrukturiert oder unstrukturiert. |
Schema | Werden oft vor der Implementierung des Data Warehouses entworfen, können aber auch während der Analyse verfasst werden (Schema-on-Write oder Schema-on-Read) |
Wird zum Analysezeitpunkt geschrieben (Schema-on-Read) |
Preis/Leistung |
Die schnellsten Abfrageergebnisse mit lokalem Speicher |
Schnellere Abfrageergebnisse mit günstigem Speicher und Entkopplung von Berechnung und Speicher |
Datenqualität |
Sorgfältig kuratierte Daten, die als zentraler wahrer Datenbestand gelten |
Jegliche Daten, ob kuratiert oder nicht (z. B. Rohdaten) |
Benutzer | Businessanalysten, Datenwissenschaftler und Datenentwickler |
Geschäftsanalysten (mit bearbeiteten Daten), Datenwissenschaftler, Datenentwickler, Dateningenieure und Datenarchitekten |
Analytik | Batch-Berichte, BI und grafische Darstellung |
Machine Learning, explorative Analytik, Datenermittlung, Streaming, Betriebsanalytik, Big Data und Profilierung |
Erfahren Sie mehr über Data Warehouses | Erfahren Sie mehr über Data Lakes |
Wann Sie Data Lakes versus Data Warehouses versus Data Marts verwenden sollten?
Die meisten großen Unternehmen verwenden in ihrer Speicher-Infrastruktur eine Kombination aus Data Lakes, Warehouses und Marts. Typischerweise werden sämtliche Daten in einen Data Lake eingespeist und dann für ausgewählte Anwendungsfälle in verschiedene Warehouses und Marts geladen. Die Technologie-Entscheidung hängt von verschiedenen Faktoren ab, wie im Folgenden erläutert.
Flexibilität
Im Allgemeinen bieten Data Lakes mehr Flexibilität bei geringeren Kosten. Verschiedene Teams können mit ihrer Wahl an Analyse-Tools und -Frameworks auf dieselben Daten zugreifen. Sie sparen auch Zeit, nachdem es nicht notwendig ist, Datenstrukturen, Schemas und Transformationen zu definieren.
Datentypen
Ein Data Warehouse ist besser, wenn Sie relationale Daten wie Kundendaten und Daten zu Geschäftsabläufen speichern möchten. Wenn Sie ein großes Volumen an relationalen Daten haben, könnte Ihr Team eventuell die Erstellung einiger Data Marts für spezifische Geschäftsanforderungen in Erwägung ziehen. Zum Beispiel könnte die Buchhaltung einen Data Mart erstellen, um Rechnungsabschlüsse zu verwalten und Kontoauszüge für Kunden vorzubereiten, während die Marketing-Abteilung einen anderen Data Mart zum Optimieren von Werbekampagnen erstellen könnte.
Kosten und Volumen
Ein Data Warehouse kann Hunderte von Petabytes (PB) an Daten effizient verarbeiten. Data Lakes bieten verhältnismäßig niedrige Kosten für mehr Volumen, besonders bei einer großen Anzahl von Bildern und Videos. Eventuell benötigt jedoch nicht jedes Unternehmen dieses Maß an Skalierbarkeit.
Wie kann AWS bei Ihren Datenspeicher-Anforderungen helfen?
AWS bietet die größte Auswahl an Analyseservices, die alle Ihre Anforderungen an die Datenanalytik erfüllen. Wir ermöglichen es Branchen und Unternehmen von allen Größen, ihr Geschäft mit Daten neu zu erfinden. Hier sind Beispiele dafür, wie Sie AWS verwenden können:
- Mit Amazon Redshift können Sie Ihre Data-Warehousing- und Data-Mart-Anforderungen erfüllen. Sie können integrierte Erkenntnisse erhalten, indem Sie Echtzeit- und prädiktive Analytik für komplexe, skalierte Daten aus Ihren operativen Datenbanken, Data Lakes, Data Warehouse und Tausenden von Datensätzen durch Drittanbieter durchführen. Sie können auf einfache Weise automatisch Modelle für Machine Learning erstellen, trainieren und bereitstellen.
- Mit AWS Lake Formation können Sie innerhalb von einigen Tagen einen Data Lake erstellen, verwalten und sichern. Importieren Sie schnell Daten aus all Ihren Datenquellen und beschreiben und verwalten Sie sie dann in einem zentralen Datenkatalog.
- Mit Amazon S3 können Sie einen benutzerdefinierten Data Lake für Big-Data-Analysen, künstliche Intelligenz, Machine Learning und High-Performance-Computing-Anwendungen erstellen.
Beginnen Sie mit dem Datenspeicher in AWS, indem Sie noch heute ein kostenloses Konto erstellen.
Nächste Schritte mit AWS
Informationen zu den ersten Schritten mit Data Warehouse in AWS
Informationen zu den ersten Schritten mit Data Marts in AWS