AWS Cloud
Erste Schritte mit Amazon Redshift

Ein Data Warehouse ist ein zentrales Informations-Repository, das analysiert werden kann, um bessere und fundiertere Entscheidungen zu treffen. Daten fließen über Transaktionssysteme, relationale Datenbanken und andere Quellen in ein Data Warehouse, in der Regel in einem bestimmten Rhythmus. Businessanalysten, Datenwissenschaftler und Entscheidungsträger greifen über Business-Intelligence-Tools (BI), SQL-Clients und andere Analyseanwendungen auf diese Daten zu.

Daten und deren Analyse sind heute ein unverzichtbares Werkzeug für die Wettbewerbsfähigkeit von Unternehmen. Unternehmen nutzen Berichte, Dashboards und Analysetools, um harte Fakten aus ihren Daten zu gewinnen, die Geschäftsleistung zu überwachen und Entscheidungen zu treffen. Im Hintergrund werden diese Berichte, Dashboards und Analysetools von Data Warehouses unterstützt, die Daten effizient speichern, um E/A-Vorgänge zu minimieren und Abfrageergebnisse gleichzeitig in kürzester Zeit Hunderten und Tausenden von Benutzern bereitzustellen.

Whitepaper Enterprise Data Warehousing on AWS herunterladen

Die Architektur eines Data Warehouse besteht aus drei Stufen. Die unterste Stufe der Architektur ist der Datenbankserver, in dem Daten geladen und gespeichert werden. Die mittlere Stufe besteht aus der Analyse-Engine, die zum Zugriff auf und zur Analyse der Daten verwendet wird. Die oberste Stufe ist der Front-End-Client, der die Ergebnisse durch Berichte, Analysen und Data-Mining-Tools präsentiert.

Ein Data Warehouse organisiert Daten zu einem Schema, das die Anordnung und die Art der Daten beschreibt, etwa Integer, Datenfeld oder Zeichenkette. Fließen Daten in das Data Warehouse, werden diese in verschiedenen Tabellen gespeichert, die durch das Schema festgelegt wurden. Abfrage-Tools nutzen das Schema, um zu bestimmen, welche Datentabellen sie aufrufen und analysieren sollen.

Die Vorteile eines Data Warehouse sind:

  • Bessere Entscheidungsfindung
  • Konsolidiert Daten aus vielen Quellen
  • Qualität, Einheitlichkeit und Genauigkeit von Daten
  • Historische Informationen
  • Trennt die Analyseverarbeitung von Transaktionsdatenbanken und verbessert so die Leistung beider Systeme

 

Ein Data Warehouse ist speziell für die Datenanalyse konzipiert. Dabei werden große Datenmengen eingelesen, um die Beziehungen und Trends in den Daten nachzuvollziehen. Eine Datenbank wird zur Erfassung und zum Speichern von Daten verwendet. Sie zeichnet beispielsweise Details zu einer Transaktion auf.

Merkmale Data Warehouse Transaktionsdatenbank
Geeignete Arbeitslasten Analyse, Berichte, Big Data Transaktionsverarbeitung
Datenquelle Daten werden aus vielen Quellen gesammelt und normalisiert Daten werden im Rohzustand aus einer einzelnen Quelle (wie einem Transaktionssystem) erfasst
Datenerfassung Daten werden üblicherweise im Rahmen eines vorbestimmten Batch-Zeitplans in einem Schub geschrieben

Optimiert für kontinuierliche Schreibvorgänge, wann immer neue Daten verfügbar sind, um den Transaktionsdurchsatz zu maximieren

Datennormalisierung Denormalisierte Schemata, wie etwa Stern- oder Schneeflockenschema Hochnormalisierte, statische Schemata
Datenspeicher Optimiert für einfachen Zugriff und schnelle Abfrageleistung mithilfe von spaltenbasierter Speicherung Optimiert für Schreibvorgänge mit hohem Durchsatz in einen einzelnen, reihenbasierten physischen Block
Datenzugriff Optimiert zur Minimierung von E/A und Maximierung des Datendurchsatzes Hohes Aufkommen kleiner Lesevorgänge

Anders als ein Data Warehouse ist ein Data Lake ein zentrales Repository für alle Daten, egal, ob strukturiert oder unstrukturiert. Ein Data Warehouse nutzt ein vordefiniertes Schema, das für die Analyse optimiert ist. In einem Data Lake ist das Schema nicht definiert. Damit werden zusätzliche Analysearten möglich, wie Big-Data-Analyse, Volltextsuche, Echtzeitanalyse und maschinelles Lernen.

Merkmale Data Warehouse Data Lake
Daten Relationale Daten aus Transaktionssystemen, Betriebsdatenbanken und branchenrelevanten Anwendungen Nichtrelationale und relationale Daten aus IoT-Geräten, Webseiten, mobilen Apps, sozialen Medien und Unternehmensanwendungen
Schema Wird vor der Implementierung des Data Warehouse entwickelt (Schema-on-Write) Wird zum Analysezeitpunkt geschrieben (Schema-on-Read)
Preis/Leistung Die schnellsten Abfrageergebnisse mit teurerem Speicher Immer schnellere Abfrageergebnisse mit günstigem Speicher
Datenqualität Sorgfältig kuratierte Daten, die als zentraler wahrer Datenbestand gelten Jegliche Daten, ob kuratiert oder nicht (z. B. Rohdaten)
Benutzer Businessanalysten, Datenwissenschaftler und Datenentwickler Datenwissenschaftler, Datenentwickler und Businessanalysten (mit kuratierten Daten)
Analysen Batch-Berichte, BI und grafische Darstellung Maschinelles Lernen, prädiktive Analyse, Daten-Discovery und Profilierung

Ein Data Mart ist ein Data Warehouse, das die Anforderungen eines bestimmten Teams oder einer bestimmten Geschäftseinheit abdeckt, etwa der Finanz- Marketing- oder Vertriebsabteilung. Data Marts sind kleiner, spezifischer und können Zusammenfassungen von Daten enthalten, die optimal auf ihre Nutzer zugeschnitten sind.

Merkmale Data Warehouse Data Mart
Umfang Zentralisiert, mehrere Themenbereiche integriert Dezentralisiert, bestimmter Themenbereich
Benutzer Unternehmensweit Eine bestimmte Gruppe von Nutzern oder eine bestimmte Abteillung
Datenquelle Viele Quellen Eine oder wenige Quellen, oder ein Teil von Daten, die bereits in einem Data Warehouse gesammelt werden
Größe Groß, von hunderten Gigabytes bis Petabytes Klein, in der Regel bis zu mehreren zehn Gigabytes
Design Top-Down Bottom-Up
Datendetails Vollständige, detaillierte Daten Kann zusammengefasste Daten enthalten

Mit AWS können Sie die Vorteile aller Kernleistungen des On-Demand-Computing nutzen, wie den Zugriff auf nahezu unbegrenzte Speicher- und Rechenkapazitäten sowie die Möglichkeit der Systemskalierung parallel zur wachsenden Menge der erfassten, gespeicherten und abgefragten Daten – und dabei zahlen Sie nur für die bereitgestellten Ressourcen. Darüber hinaus bietet AWS ein breites Spektrum verwalteter Services, die sich nahtlos ineinander integrieren. Eine durchgehende Analyse- und Data Warehousing-Lösung ist damit schnell bereitgestellt.

Folgende Abbildung zeigt die wichtigsten Schritte einer durchgehenden Analyseprozesskette sowie die für jeden Schritt verfügbaren verwalteten AWS-Services:

Analyse-Pipeline auf AWS

Amazon Redshift ist eine schnelles, voll verwaltetes und kosteneffektives Data Warehouse, das Data Warehousing der Petabyte-Dimension und Data Lake-Analyse der Exabyte-Dimension in einem Service vereint.

Amazon Redshift ist bis zu zehn Mal schneller als herkömmliche Data Warehouses vor Ort. Erhalten Sie einzigartige Erkenntnisse durch die Abfrage von Petabytes von Daten in Redshift und Exabytes von strukturierten Daten oder offenen Dateiformaten in Amazon S3, ohne Ihre Daten verschieben oder umwandeln zu müssen.

Redshift ist zehn Mal günstiger als herkömmliche Data-Warehouse-Lösungen, die vor Ort betrieben werden. Machen Sie Ihre ersten Schritte für nur USD0.25 pro Stunde ohne vertragliche Verpflichtungen, skalieren Sie in die Petabyte-Dimension für USD250 bis USD333 pro unkomprimiertem Terabyte pro Jahr, und erweitern Sie die Analyse auf Ihren Amazon S3 Data Lake schon ab USD0.05 je gescannten 10 Gigabyte Daten. Weitere Informationen