Was ist Datenbank-Analytik?

Daten untermauern die Entscheidungsfindung in Unternehmen und erfordern daher eine sorgfältige Verwaltung, Handhabung und Analyse. Unsachgemäße Datenoperationen, selbst durch die erfahrensten Datenanalysten, können zu falschen Annahmen und fehlgeleiteten Entscheidungen führen.

Eine ausgereifte Datenanalytik-Pipeline ermöglicht es Unternehmen, Trends genau zu identifizieren, deskriptive Analytik, präskriptive Analytik und statistische Analytik durchzuführen sowie Machine Learning und KI-Funktionen einzuführen.

Die Wahl eines Datenbankanalytik-Systems hängt von Ihren vorhandenen Daten, aktuellen Datenbankformaten und anderen erforderlichen Analysetypen ab. Daten werden in Unternehmen in verschiedenen Formaten gespeichert, darunter relationale Datenbanken, nicht-relationale Datenbanken und andere Dateiformate. Relationale und nicht-relationale Datenbanken bieten integrierte Unterstützung für grundlegende Analytik, aber diese allein reichen nicht aus, um tiefere Einblicke in Geschäftsfunktionen und Quellen zu gewinnen.

Datenanalysten benötigen Data Warehouses, Data Lakes und Lakehouses für die Datenintegration aus unterschiedlichen Quellen, sodass sie für format- und funktionsübergreifendes Data Mining und Analytik gerüstet sind.

Im Rest des Leitfadens untersuchen wir all diese verschiedenen Technologien im Bereich der Datenbank-Analytik.

Was sind die wichtigsten Arten von Datensystemen, die in der Analytik verwendet werden?

Hier ist ein kurzer Überblick über die verschiedenen Systemtypen, die in der Analytik genutzt werden können

Relationale Datenbanken

Relationale Datenbanken sind Sammlungen strukturierter Daten, die in Tabellen mit Zeilen und Spalten angeordnet sind. Jede Tabelle enthält eine Sammlung dazugehöriger Daten, die reale Objekte oder Konzepte darstellen.

Jede Zeile in einer Tabelle stellt einen einzelnen Datensatz dar, z. B. die Daten eines Kunden, einschließlich Name, Telefonnummer und Adresse. Jede Tabelle kann mit einer oder mehreren anderen Tabellen verknüpft werden. Beispielsweise kann eine Kundentabelle mit einer Einkaufstabelle verknüpft werden, sodass jeder Kauf mit einem bestimmten Kunden verknüpft werden kann.

Alle relationalen Datenbankverwaltungssysteme haben ein festes Schema, wie oben beschrieben, und unterstützen Structured Query Language (SQL) für Datenabfragen zwischen und innerhalb von Tabellen.

Beispiele für relationale Datenbank-Services in AWS sind Amazon Relational Database Service und Amazon Aurora, eine leistungsstarke, global skalierbare relationale Datenbanklösung für PostgreSQL, MySQL und DSQL.

Nicht-relationale Datenbanken

Nicht-relationale Datenbanken haben ein flexibles Schema und werden auch als NoSQL-Datenbanken bezeichnet, da sie keine Abfragen über SQL unterstützen. Zu den verschiedenen Arten von nicht-relationalen Datenbanken gehören: Schlüssel-Wert-Datenbanken, Dokumentdatenbanken, breitspaltige Datenbanken, Graphdatenbanken, In-Memory-Datenbanken und Suchdatenbanken.

Jede Art von NoSQL-Datenbank ist für einen bestimmten Anwendungsfall geeignet. Eine Dokumentendatenbank eignet sich beispielsweise für ein internes Content-Management-System, und ein breitspaltiger Speicher eignet sich gut für Zeitreihendaten aus einer IoT-Flotte.

Im Folgenden finden Sie einige Beispiele für nicht-relationale Datenbank-Services auf AWS.

Amazon DynamoDB ist eine Serverless, vollständig verwaltete NoSQL-Datenbank mit einer Leistung im einstelligen Millisekundenbereich, die sich für Schlüssel-Werte-Datenbanken und Dokumentenspeicher eignet.
Amazon DocumentDB (mit MongoDB-Kompatibilität) ist ein vollständig verwalteter nativer JSON-Dokumentdatenbank-Service.
Amazon Keyspaces (für Apache Cassandra) ist ein skalierbarer, hochverfügbarer und verwalteter Service für Apache-Cassandra-kompatible Datenbanken mit breiten Spalten.
Amazon Neptune ist ein leistungsstarker, Serverless-Graphdatenbank-Service, der herausragende Analytik, Skalierbarkeit und Verfügbarkeit bietet.
Amazon ElastiCache ist ein vollständig verwalteter In-Memory-Caching-Service, der mit den In-Memory-Datenbanken Valkey, Redis und Memcached kompatibel ist.
Amazon MemoryDB ist ein Valkey- und Redis OSS-kompatibler, langlebiger In-Memory-Datenbank-Service für ultraschnelle Leistung.

Data Warehouse

Ein Data Warehouse ist eine Analytik-Lösung, die die Funktionen relationaler Datenbanken massiv erweitert und SQL-Abfragen unterstützt. Data Warehouses werden zum Speichern und Analysieren relationaler Daten in einer großen Anzahl von Datenbanken verwendet. Eine Warehouse-Lösung kann nicht-relationale Daten während des ETL-Prozesses (Extract, Transform, Load) transformieren und normalisieren, sodass sie für die Analytik bereit sind.

Amazon Redshift ist eine verwaltete Data Warehouse-Lösung, mit der Sie mühelos Daten speichern und Datenanalytik-Workloads skalieren können.

Data Lake

Ein Data Lake ist ein zentrales Repository, in dem Sie alle strukturierten und unstrukturierten Daten in beliebigem Umfang speichern können. Die Transformation von Daten kann vor oder nach der Übertragung in den Data Lake erfolgen. Ein Data Lake erfordert zusätzliche Services für ETL und Analysen; die Analyse von Rohdaten ist in der Regel keine Option.

Amazon S3 ist ein Objektdatenspeicher, mit dem beliebige Datenmengen von überall abgerufen werden können und der als Data Lake dienen kann. S3 kann mit AWS Lake Formation kombiniert werden, um den Datenzugriff zu ermöglichen und gespeicherte Daten gemeinsam zu nutzen

Data Lakehouse

Ein Data Lakehouse ist eine Kombination aus einem Data Warehouse und einem Data Lake. Ein Data Lakehouse kann strukturierte und unstrukturierte Daten speichern, bietet eine Formatebene zum Hinzufügen von Schema und Struktur und enthält eine Abfrage-Engine. Ein Data Lakehouse ist eine notwendige Ebene in der modernen Unternehmensdatenanalytik, da es Abfragen für alle Daten gleichzeitig ausführen kann.

Amazon SageMaker Lakehouse vereinheitlicht Daten aus Amazon S3 Data Lakes und analytischen Amazon Redshift Database Warehouses. Amazon SageMaker Lakehouse bietet Ihnen die Flexibilität, mit allen Apache-Iceberg-kompatiblen Tools und Engines direkt auf Ihre Daten zuzugreifen und diese abzufragen.

Sonstige Arten

Bei Analytik im gesamten Unternehmen passen verschiedene Datentypen möglicherweise nicht genau in das relationale oder nicht-relationale Datenbankmodell, z. B. Rohdateien und Tabellen. Das bedeutet, dass sie in verschiedenen Formaten gespeichert werden. Beispielsweise können halbstrukturierte Streaming-Daten in Apache-Avro-Dateien gespeichert werden, und Amazon S3 kann zum Speichern aller Arten von Daten verwendet werden.

Bei der Auswahl eines Datenanalytik-Systems benötigen Sie wahrscheinlich die Fähigkeit, diese Dateitypen in Verbindung mit Ihren Datenbanken zu analysieren.

Wie implementieren Sie Datenbank-Analytik auf AWS?

Verschiedene Datenbanken, Datentypen sowie Datenbankspeicher- und -verwaltungssysteme verarbeiten Datenanalytik auf jeweils einzigartige Weise. Die Durchführung von Analytik für Data Warehouses, Data Lakes und Lakehouses erfordert unterschiedliche Strategien und Technologien.

Stellen Sie von Anfang an eine grundlegende Daten-Governance sicher, indem Sie Amazon DataZone verwenden, um Daten zu katalogisieren, zu ermitteln, zu teilen und zu verwalten, die in AWS, On-Premises und in Quellen von Drittanbietern gespeichert sind.

Amazon Managed Workflows für Apache Airflow (MWAA) kann als Tool zur Pipeline-Automatisierung dabei helfen, den Datenanalytik-Prozess durch Datenübertragung und Transformation zu orchestrieren und auch Analytik-Workflows in Ihrem Warehouse, Lake oder Lake House auszulösen.

Schritt 1 – Zentralisieren Sie Daten aus verschiedenen Quellen in einem größeren System

Es gibt verschiedene Möglichkeiten, Ihre Daten aus aktuellen Quellen in Data Warehouses, Data Lakes und Data Lakehouses zu übertragen. Daten müssen möglicherweise vor der Speicherung transformiert und bereinigt werden. Es können auch andere Überlegungen zu berücksichtigen sein, z. B. die Typen vertraulicher Kundendaten, Zugriffsberechtigungen und der direkte Zugriff auf einige Daten.

Der einfachste Weg, Daten zur Vorbereitung einer AWS-Warehouse-, Lake- oder Lakehouse-Konfiguration zu übertragen, besteht darin, die Daten zunächst nach S3 zu verschieben.

Der AWS Database Migration Service migriert Datenbank-Workloads zur AWS-Infrastruktur. Das AWS Schema Conversion Tool kann bestehende Datenbankschemas in AWS-unterstützte Schemas konvertieren.
AWS Snowball bietet gerätegestützten Versand- und Rücktransfer für große Datenmengen.
AWS Transfer Family und AWS DataSync bieten alternative netzwerkbasierte Methoden für die Datenübertragung.

Für Streaming-Daten sind möglicherweise neue Services wie Amazon Data Firehose für die Bereitstellung von Streaming-Daten in Echtzeit oder Amazon Kinesis Data Streams für die Aufnahme und Aggregation erforderlich.

Schritt 2 – Daten transformieren und normalisieren

Zur Analyse von Daten müssen einige Daten transformiert und normalisiert werden.

AWS Glue entdeckt und verbindet mehr als 100 verschiedene Datenquellen, verwaltet Ihre Daten in einem zentralen Datenkatalog, erstellt, führt Data Pipelines aus und überwacht sie, um Daten in Ihre Data Lakes, Data Warehouses und Lakehouses zu laden. AWS Glue DataBrew ist ein visuelles Datenvorbereitungstool, das es Datenanalysten und Datenwissenschaftlern erleichtert, Daten zu bereinigen und zu normalisieren.

Amazon EMR bietet leistungsoptimierte Laufzeiten für Big-Data-Analytik von Apache Spark, Trino, Apache Flink und Hive, wodurch die Workflows und Verarbeitungszeiten von Data Lakes vereinfacht werden.

Amazon SageMaker Data Wrangler ist der schnellste und einfachste Weg, Daten für Machine Learning vorzubereiten.

Schritt 3 – Kombinierte Datenanalyse

Sobald Ihre Daten gespeichert, verbunden und transformiert sind, nutzen Datenanalysten Ihr Warehouse, Ihren Lake oder Ihr Lakehouse, um Analysen durchzuführen. Je nach Anwendungsfall gibt es mehrere Datenanalytik-Techniken.

Abfrage

Amazon Redshift verfügt über integrierte Abfragefunktionen für Ihr Data Warehouse. Amazon Athena hilft Ihnen bei der Analyse und Abfrage unstrukturierter, halbstrukturierter und strukturierter Daten, die in Amazon-S3-Data-Lakes gespeichert sind. Es ist für die Durchführung von Datenanalysen und -explorationen in Echtzeit optimiert, sodass Benutzer Daten interaktiv abfragen und visualisieren können. Amazon SageMaker Lakehouse bietet auch integrierte Abfragefunktionen.

Business Intelligence

Amazon QuickSight bietet einheitliche Business Intelligence-Datenanalytik (BI) in großem Maßstab, die Data Warehouses, Data Lakes und Lakehouses umfassen. Datenvisualisierung ist ein wichtiger Service in Amazon QuickSight.

Machine Learning

Amazon Redshift ML kann für Machine-Learning-Analytik in Redshift-Warehouses verwendet werden. Amazon SageMaker bietet Machine Learning und andere Analytik-Funktionen für Data Lakes und Lakehouses.

Über Amazon SageMaker Lakehouse

In SageMaker Lakehouse erhalten Sie die Flexibilität, direkt auf Ihre Daten zuzugreifen und diese abzufragen, und zwar auf einer einzigen Datenkopie. Sie können Analytik-Tools und Engines Ihrer Wahl wie SQL, Apache Spark, Business Intelligence (BI) und KI/ML-Tools nutzen und mit Daten zusammenarbeiten, die in Amazon S3 Data Lakes und Amazon Redshift Warehouses gespeichert sind.

Streaming-Daten

Amazon Kinesis kann Echtzeit-Videodaten und Datenströme sicher und skalierbar sammeln, verarbeiten und analysieren.

Wie kann AWS Ihre Anforderungen an Datenbank-Analytik unterstützen?

Die Analyse von Datenbanken erfordert in modernen Unternehmensumgebungen weit mehr als nur SQL-Abfragen. Durch die Nutzung von Data Warehouses, Data Lakes und Lakehouses können Datenanalysten das Potenzial von Daten ausschöpfen und Datenanalytik für verschiedene Quellen, Typen und Funktionen durchführen.

Die richtige Datenbankanalytik-Architektur trägt dazu bei, dass Ihre Lösung skalierbar, betriebsbereit und in heute wichtige ML-Service und prädiktive Analytik integrierbar ist. Beginnen Sie, indem Sie noch heute ein kostenloses Konto in AWS erstellen.

Was ist Datenbank-Analytik?