Konzepte zum Data Warehouse

Was ist ein Data Warehouse?

Ein Data Warehouse ist ein zentrales Informations-Repository, das analysiert werden kann, um fundiertere Entscheidungen zu treffen. Daten fließen über Transaktionssysteme, relationale Datenbanken und andere Quellen in ein Data Warehouse, in der Regel in einem bestimmten Rhythmus. Geschäftsanalysten, Dateningenieure, Datenwissenschaftler und Entscheidungsträger greifen über Business-Intelligence-Tools (BI), SQL-Clients und andere Analyseanwendungen auf diese Daten zu.

Daten und deren Analyse sind heute ein unverzichtbares Werkzeug für die Wettbewerbsfähigkeit von Unternehmen. Geschäftliche Nutzer verlassen sich auf Berichte, Dashboards und Analysetools, um Erkenntnisse aus ihren Daten zu gewinnen, die Geschäftsleistung zu überwachen und Entscheidungen zu treffen. Diese Berichte, Dashboards und Analysetools von Data Warehouses unterstützt, die Daten effizient speichern, um Eingaben und Ausgaben (E/A) von Daten zu minimieren und Abfrageergebnisse gleichzeitig in kürzester Zeit Hunderten und Tausenden von Benutzern bereitzustellen.

Wie ist ein Data Warehouse augbeaut?

Ein Data Warehouse besteht aus verschiedenen Stufen. Die oberste Stufe ist der Front-End-Client, der die Ergebnisse durch Berichte, Analysen und Data-Mining-Tools präsentiert. Die mittlere Stufe besteht aus der Analyse-Engine, die zum Zugriff auf und zur Analyse der Daten verwendet wird. Die unterste Stufe der Architektur ist der Datenbankserver, in dem Daten geladen und gespeichert werden. Daten werden auf zwei unterschiedliche Arten gespeichert: 1) Daten, die oft abgerufen werden, werden in einem schnellen Speicher gespeichert (vergleichbar mit SSD-Festplatten) und 2) Daten, die nicht selten abgerufen werden, werden in einem günstigen Objektspeicher gespeichtert, wie Amazon S3. Das Data Warehouse sorgt automatisch dafür, dass häufig abgerufene Daten im „schnellen“ Speicher gespeichert werden, damit die Abfragegeschwindigkeit hoch bleibt.

Wie funktioniert ein Data Warehouse?

Ein Data Warehouse kann mehrere Datenbanken enthalten. In jeder Datenbank sind Daten in Tabellen und Spalten organisiert. Sie können in jeder Spalte eine Beschreibung der Daten festlegen, z. B. ob es sich um Integer, Daten oder Zeichenfolgen handelt. Tabellen können in Schemata organisiert werden, die so etwas wie Ordner sind. Fließen Daten in das Data Warehouse, werden diese in verschiedenen Tabellen gespeichert, die durch das Schema festgelegt wurden. Abfrage-Tools nutzen das Schema, um zu bestimmen, welche Datentabellen sie aufrufen und analysieren sollen.

Welche Vorteile bietet die Nutzung eines Data Warehouses?

Zu den Vorteilen eines Data Warehouses gehören unter anderem:

  • Informierte Entscheidungsfindung
  • Konsolidierung von Daten aus vielen Quellen
  • Verlaufsdatenanalyse
  • Qualität, Einheitlichkeit und Genauigkeit von Daten
  • Trennung der Analyseverarbeitung von Transaktionsdatenbanken was die Leistung beider Systeme verbessert

Wie arbeiten Data Warehouses, Datenbanken und Data Lakes zusammen?

Unternehmen nutzen in der Regel sowohl Datenbanken, einen Data Lake als auch ein Data Warehouse, um Daten zu speichern und zu analysieren. Die Lake House-Architektur von Amazon Redshift erleichtert diese Integration.

Mit wachsenden Datenmengen und -arten, ist es von Vorteil, einem oder mehreren üblichen Mustern zu folgen, wenn es um die Arbeit mit Daten in Datenbank, Data Lake und Data Warehouse geht.

Landen Sie Daten in einer Datenbank oder einem Data Lake, bereiten Sie die Daten vor, bewegen Sie ausgewählte Daten in ein Data Warehouse und führen Sie die Bericerstellung durch

Bild (oben): Landen Sie Daten in einer Datenbank oder einem Data Lake, bereiten Sie die Daten vor, bewegen Sie ausgewählte Daten in ein Data Warehouse und führen Sie die Bericerstellung durch.

Landen Sie Daten in einem Data Warehouse, analysieren Sie die Daten und teilen Sie die zu verwendenden Daten mit anderen AWS-Analysewerkzeugen

Bild (oben): Landen Sie Daten in einem Data Warehouse, analysieren Sie die Daten und teilen Sie die zu verwendenden Daten mit anderen Analysewerkzeugen und Diensten für Machine Learning.

Ein Data Warehouse ist speziell für die Datenanalyse konzipiert. Dabei werden große Datenmengen eingelesen, um die Beziehungen und Trends in den Daten nachzuvollziehen. Eine Datenbank wird zur Erfassung und zum Speichern von Daten verwendet. Sie zeichnet beispielsweise Details zu einer Transaktion auf.

Anders als ein Data Warehouse ist ein Data Lake ein zentrales Repository für alle Daten, egal, ob strukturiert, halbstrukturiert oder unstrukturiert. In einem Data Warehouse müssen Daten tabellarisch geordnet sein. Hier kommt das Schema ins Spiel. Die tabellarische Form wird benötigt, damit SQL zum Abfragen von Daten verwendet werden kann. Die Daten müssen jedoch nicht für alle Anwendungen in tabellarischer Form sein. Einige Anwendungen, wie etwa Big Data-Analyse, Volltextsuche und Machine Learning können auf Daten zugreifen, auch wenn diese halbstrukturiert oder komplett unstrukturiert sind.

Data Warehouse im Vergleich zum Data Lake

Merkmale Data Warehouse Data Lake
Daten

Relationale Daten aus Transaktionssystemen, Betriebsdatenbanken und branchenrelevanten Anwendungen

Allen Daten, ob strukturiert, halbstrukturiert oder unstrukturiert.

Schema

Werden oft vor der Implementierung des Data Warehouses entworfen, können aber auch während der Analyse verfasst werden

(Schema-on-Write oder Schema-on-Read)

Wird zum Analysezeitpunkt geschrieben (Schema-on-Read)

Preis/Leistung

Die schnellsten Abfrageergebnisse mit lokalem Speicher

Schnellere Abfrageergebnisse mit günstigem Speicher und Entkopplung von Berechnung und Speicher

Datenqualität

Sorgfältig bearbeitete Daten, die als zentraler wahrer Datenbestand gelten

Jegliche Daten, ob bearbeitet oder nicht (z. B. Rohdaten)

Benutzer

Geschäftsanalysten, Datenwissenschaftler und Datenentwickler

Geschäftsanalysten (mit bearbeiteten Daten), Datenwissenschaftler, Datenentwickler, Dateningenieure und Datenarchitekten

Analysen

Batch-Berichte, BI und grafische Darstellung

Machine Learning, explorative Analysen, Datenerkennung, Streaming, Betriebsanalysen, Big Data und Profilierung

Data Warehouse im Vergleich zur Datenbank

Merkmale Data Warehouse Transaktionsdatenbank

Geeignete Arbeitslasten

Analysen, Berichte, Big Data

Transaktionsverarbeitung
Datenquelle Daten werden aus vielen Quellen gesammelt und normalisiert

Daten werden im Rohzustand aus einer einzelnen Quelle (z. B. einem Transaktionssystem) erfasst

Datenerfassung

Daten werden üblicherweise im Rahmen eines vorbestimmten Batch-Zeitplans in einem Schub geschrieben

Optimiert für kontinuierliche Schreibvorgänge, wann immer neue Daten verfügbar sind, um den Transaktionsdurchsatz zu maximieren

Datennormalisierung

Denormalisierte Schemata wie etwa Stern- oder Schneeflockenschema

Hochnormalisierte, statische Schemata

Datenspeicher

Optimiert für einfachen Zugriff und schnelle Abfrageleistung mithilfe von spaltenbasierter Speicherung

Optimiert für Schreibvorgänge mit hohem Durchsatz in einen einzelnen, reihenbasierten physischen Block

Datenzugriff

Optimiert zur E/A-Minimierung und Maximierung des Datendurchsatzes

Hohes Aufkommen kleiner Lesevorgänge

Wie unterscheidet ich der Data Mart vom Data Warehouse?

Ein Data Mart ist ein Data Warehouse, das die Anforderungen eines bestimmten Teams oder einer bestimmten Geschäftseinheit abdeckt, etwa der Finanz-, Marketing- oder Vertriebsabteilung. Data Marts sind kleiner, spezifischer und können Zusammenfassungen von Daten enthalten, die optimal auf ihre Nutzer zugeschnitten sind. Ein Data Mart kann auch ein Teil eines Data Warehouses sein.

Data Warehouse im Vergleich zum Data Mart

Merkmale Data Warehouse Data Mart
Umfang

Zentralisiert, mehrere Themenbereiche integriert

Dezentralisiert, bestimmter Themenbereich

Benutzer

Unternehmensweit

Eine bestimmte Gruppe von Nutzern oder eine bestimmte Abteilung

Datenquelle

Viele Quellen

Eine oder wenige Quellen oder ein Teil von Daten, die bereits in einem Data Warehouse gesammelt werden

Größe

Groß, von hunderten Gigabytes bis Petabytes

Klein, in der Regel bis zu mehreren zehn Gigabytes

Designen

Top-Down

Bottom-Up

Datendetails

Vollständige, detaillierte Daten

Kann zusammengefasste Daten enthalten

Wie kann ein Data Warehouse auf AWS bereitestellt werden?

Mit AWS können Sie die Vorteile aller Kernleistungen des On-Demand-Computing nutzen: Zugriff auf nahezu unbegrenzte Speicher- und Rechenkapazitäten, Systemskalierung parallel zur wachsenden Menge Ihrer erfassten, gespeicherten und abgefragten Daten – und dabei zahlen Sie nur für die bereitgestellten Ressourcen. AWS bietet ein breites Spektrum verwalteter Services, die sich nahtlos ineinander integrieren. Eine durchgehende Analyse- und Data Warehousing-Lösung ist damit schnell bereitgestellt.

Die folgende Illustration zeigt die wichtigen Schritte in einem vollständigen Analyseprozess, auch Stack genannt. AWS bietet eine Vielzahl an verwalteten Services für jeden Schritt.

AWS bietet eine Vielzahl an Produkten und Services für jeden Schritt des Analyseprozesses.

Bild( oben): AWS bietet eine Vielzahl an Produkten und Services für jeden Schritt des Analyseprozesses.

Amazon Redshift ist unser schneller, vollständig verwalteter und kostengünstige Data-Warehouse-Service. Er bietet Data-Warehousing auf Petybyte-Ebene und Data Lake-Analyse auf Exabyte-Ebene in einem Service, in dem Sie nur für das zahlen, was Sie auch tatsächlich nutzen.

Nächste Schritte