Überspringen zum Hauptinhalt

Was ist Datenvirtualisierung?

Datenvirtualisierung ist der Prozess der Abstraktion von Datenoperationen vom zugrunde liegenden Datenspeicher. Moderne Unternehmen speichern Daten in verschiedenen Formaten, von herkömmlichen Tabellen bis hin zu Echtzeitnachrichten und Dateien, über verschiedene Systeme und Plattformen hinweg. Die physische Übertragung dieser Daten in ein einziges zentrales System ist möglicherweise nicht immer praktikabel oder kosteneffizient.

Bei der Datenvirtualisierung werden Metadaten, also Daten über Daten, verwendet, um eine virtuelle Ebene für die Datenmanipulation zu schaffen. Endbenutzer können Daten innerhalb der virtuellen Ebene auf integrierte Weise lesen und ändern, ohne die zugrunde liegenden technischen Details verstehen zu müssen. Anstelle des Endbenutzers interagiert die virtuelle Ebene mit der darunterliegenden Speicherebene, um Daten nach Bedarf zu übertragen oder abzurufen. 

Warum ist Datenvirtualisierung wichtig?

Heutzutage sind die Daten von Unternehmen oft über verschiedene Datenquellen in On-Premises-Systemen, Cloud-Services und anderen isolierten Systemen verteilt. Die Möglichkeiten zum Zusammenführen physischer Daten sind aufgrund der folgenden Herausforderungen begrenzt:

  • Die manuelle Verwaltung von Quelldaten auf mehreren Plattformen kann zeitaufwändig und fehleranfällig sein.
  • Die Zugriffskontrolle für mehrere unabhängige Quellen kann aufgrund der vorgeschriebenen Daten-Governance komplex sein.
  • Die Aufrechterhaltung direkter Verbindungen zwischen Datenquellen kann eine Herausforderung darstellen, wenn neue Quellen oder Benutzer hinzugefügt werden.

Andere traditionelle Methoden der Datenintegration erfordern die Übertragung von Daten in Data Warehouses oder Data Lakes. Dieser Ansatz bietet zwar Zentralisierung, erfordert jedoch die Synchronisierung mehrerer Kopien, was sich wiederum auf die Echtzeit-Berichtsfunktionen auswirken kann.

Datenvirtualisierungssysteme bieten mehrere wichtige Vorteile gegenüber diesen anderen Ansätzen.

Abstraktion

Die Abfrage wird von den eigentlichen Quellen abstrahiert, sodass Sie mit komplexen Datensätzen arbeiten können, ohne dass Benutzer oder Entwickler jedes technische Detail dahinter verstehen müssen.

Einheitliche Governance

Da die Datenvirtualisierung mit Metadaten arbeitet, können Sie eine zentralisierte Governance innerhalb der Virtualisierungsebene implementieren. Es ist auch einfach, Datenmodelle zu erstellen und zu iterieren, die schnell verfügbar sind und für zukünftige Projekte wiederverwendet werden können.

Zugriff in Echtzeit

Datenvirtualisierung ermöglicht es Ihnen, mehrere Quellen in Echtzeit abzufragen. Sie müssen nicht auf geplante Synchronisationen warten. Ihre Geschäftsanwender können mit einer einzigen Anwendung interagieren, anstatt sich mit jedem System einzeln verbinden zu müssen.

Eine einzige Quelle der Wahrheit

Sie beseitigen Redundanzen und Verwirrung, die durch veraltete Daten in einem System aufgrund von Synchronisationsverzögerungen mit einem anderen System verursacht werden. Sie reduzieren außerdem die Speicherkosten, indem Sie keine Daten in zentralisierte Data Warehouses oder Lakes kopieren.

Welche Anwendungsfälle gibt es für die Datenvirtualisierung?

Durch die Vereinfachung des Echtzeit-Datenzugriffs kann die Virtualisierung mehrere wichtige Funktionen unterstützen.

Analytik und Business Intelligence

Analytik-Initiativen, beispielsweise für die interne Berichterstattung oder die Einhaltung gesetzlicher Vorschriften, erfordern häufig die Integration von Daten aus vielen Quellen innerhalb eines Unternehmens. Der virtualisierte Datenzugriff ermöglicht es Analysten und BI-Teams, Daten einfach zu untersuchen und Abfragen zu verfeinern, ohne die Produktionsdatenquellen zu beeinträchtigen.

Unterstützung für Cloud-Migration

Die Migration großer Systeme in die Cloud kann ein langsamer und fehleranfälliger Prozess sein. Die Datenvirtualisierung ist ein leistungsstarkes Tool für eine effektive Migrationsplanung. Ihr Team kann Cutover-Szenarien testen und Datenintegrationsprozesse validieren, ohne Live-Systeme zu stören.

Vereinfachung wichtiger Systemaktualisierungen

Der Aufbau von Testumgebungen für Großprojekte, wie beispielsweise die Aktualisierung eines Enterprise Resource Planning (ERP)-Systems, kann zeitaufwändig sein und erfordert eine umfassende Koordination zwischen mehreren Teams. Mithilfe der Datenvirtualisierungstechnologie können Teams schnell komplexe Datenstrukturen für effizientes Arbeiten generieren. Dies kann dazu beitragen, die Infrastrukturkosten zu senken und die Bereitstellungszeiten zu verkürzen.

Unterstützung des Produktionssystems

Die Fehlerbehebung bei komplexen Problemen in Produktionssystemen erfordert manchmal die Neuerstellung vollständiger Datenservices für Testzwecke. Mit der Datenvirtualisierungstechnologie können Ihre IT-Teams schnell Umgebungen erstellen und testen, ohne Daten kopieren zu müssen. Dadurch können sie Korrekturen überprüfen und unbeabsichtigte Nebenwirkungen identifizieren.

DevOps-Workflows

Entwickler und Tester können bei der Vorbereitung von Anwendungen für die Freigabe mit einer vollständigen virtuellen Datenumgebung arbeiten. Sie können modellieren, wie Software in der realen Welt funktioniert, ohne große Datensätze replizieren zu müssen.

Welche Funktionen bietet eine Datenvirtualisierungsebene?

Datenvirtualisierungssoftware kann mehrere wichtige Funktionen bieten, die das Datenmanagement vereinfachen.

Semantische Modellierung

Bedeutungsvolle Geschäftskonzepte wie „Kunde“ oder „Produktlinie“ können in virtuellen Daten dargestellt werden, die über mehrere Systeme fragmentiert sind. Eine Virtualisierungsebene ermöglicht es Ihnen, Daten zu verwenden, um aussagekräftige Konzepte für mehrere Quellen einfacher zu definieren.

Universelle Konnektivität

Durch den Zugriff auf Datenquellen innerhalb Ihres Unternehmens über eine Virtualisierungsebene können Sie Datensilos leichter aufbrechen und jedem Team Echtzeit-Zugriff auf einen einheitlichen Datensatz ermöglichen.

Leistungsstarke Abfragen

Datenvirtualisierungssoftware kann intelligente Leistungstechniken verwenden, um komplexe Abfragen in eine einzige, effiziente Anweisung zu überführen. Es werden keine redundanten Abfragen an verschiedene Systeme gestellt.

Datenkataloge

Durch die Virtualisierung können Sie Metadaten oder Informationen zu Ihren Daten, innerhalb desselben Systems speichern. Sie können die Daten verwenden, um Informationen über Ihren bestehenden Datensatz zu verfolgen und einen Datenkatalog zu erstellen, der die Auffindbarkeit von Daten unterstützt.

Wie funktioniert Datenvirtualisierung?

Datenvirtualisierung ist eine Art der Datenintegration. Anstatt direkt mit Daten zu arbeiten, arbeiten Datenvirtualisierungsservices nur mit Metadaten, beispielsweise Informationen darüber, wo Ihre Daten gespeichert sind, wie sie kategorisiert sind und wie sie mit anderen Daten verbunden sind.

Benutzerabfrage

Nehmen wir an, Ihr Unternehmen verfügt über eine Kundenbeziehungsmanagement (CRM)-Datenbank und ein separates Inventarsystem für die Verwaltung Ihrer Produkte. Sie möchten jedoch alle Bestellungen finden, die in den letzten zwei Monaten von Kunden mit dem Namen „Smith“ aufgegeben wurden – eine Anfrage, die sich über beide Systeme erstreckt. Sie geben Ihre Abfrage in Ihren Datenvirtualisierungsservice ein.

Datenintegration

Der Virtualisierungsservice zerlegt die Abfrage in kleinere Komponenten. Anhand seiner Metadaten identifiziert der Service den Speicherort der Daten für jede Komponente der Abfrage innerhalb Ihrer verschiedenen Quellen. Er generiert Unterabfragen, um Kundeninformationen aus Ihrem CRM und Bestellinformationen aus dem Inventar abzurufen.

Datenpräsentation

Wenn die Quellen Daten zurückgeben, wandelt der Datenvirtualisierungsservice diese im Arbeitsspeicher um und passt Formatierung und Benennung nach Bedarf an. Er filtert Redundanzen heraus, die durch Metadaten identifiziert wurden. Sobald die Transformationen abgeschlossen sind, liefert der Service ein integriertes Ergebnis an Ihre Anwendung.

Was sind Datenvirtualisierungsansätze in der Cloud?

Es gibt drei allgemeine Ansätze für die Implementierung von Datenvirtualisierung in der Cloud: maßgeschneiderte Lösungen, kommerzielle Tools oder cloudnative Lösungen.

Maßgeschneiderte Datenvirtualisierung

Ihre erste Option besteht darin, Ihre eigene Datenvirtualisierungslösung mithilfe einer Cloud-Infrastruktur individuell zu erstellen. Dies bietet Ihnen zwar mehr Kontrolle über das Design und die Features, erfordert jedoch auch einen erheblichen Entwicklungs- und Wartungsaufwand.

Kommerzielle Datenvirtualisierungstools

Eine weitere Option ist die Verwendung einer vorgefertigten Datenvirtualisierungsplattform eines Anbieters. Diese Tools bieten in der Regel vorgefertigte Konnektoren zu vielen Datenquellen und Leistungsoptimierungen. Sie könnten auch die Integration mit bestehenden Metadatenstandards des Unternehmens unterstützen.

Cloudnative Datenvirtualisierung

Dieser Ansatz nutzt verwaltete Services von Cloud-Anbietern wie Amazon Web Services (AWS), um die Bereitstellung und den laufenden Betrieb zu vereinfachen. Er ermöglicht es Unternehmen, die bereits in der Cloud arbeiten oder auf die Cloud umsteigen, Datenvirtualisierung einzuführen, ohne dass dafür umfangreiches technisches Fachwissen erforderlich ist.

Wie kann AWS Sie bei Ihren Anforderungen an die Datenvirtualisierung unterstützen?

AWS bietet native Funktionen, die mit vielen der von kommerziellen Datenvirtualisierungsservices bereitgestellten Funktionen übereinstimmen. Diese nativen Features können potenziell eine Vielzahl von Anwendungsfällen zur Datenvirtualisierung unterstützen.

Amazon Redshift unterstützt moderne Datenanalytik in großem Maßstab. Ganz gleich, ob Ihre wachsenden Daten in betrieblichen Datenspeichern, Data Lakes, Streaming-Services oder in Datensätzen von Drittanbietern gespeichert sind – mit Amazon Redshift können Sie sicher auf Daten zugreifen, sie kombinieren und gemeinsam nutzen, ohne sie zu verschieben oder zu kopieren.

Amazon Athena ist ein interaktiver Analytik-Service, der direkt mit in Amazon S3 gespeicherten Daten arbeitet. Er ist Serverless, sodass keine Infrastruktur eingerichtet oder verwaltet werden muss und Sie sofort mit dem Analysieren von Daten beginnen können.

AWS Glue ist ein Serverless-Datenintegrationsservice, der das Auffinden, Aufbereiten und Kombinieren von Daten vereinfacht. Amazon Athena und Amazon Redshift sind nativ in den AWS-Glue-Datenkatalog integriert, einem zentralen Metadaten-Repository, das Virtualisierung unterstützt.

AWS Lake Formation erleichtert die zentrale Verwaltung, Sicherung und globale Freigabe von Daten für Analytik und Machine Learning (ML). Mit dem AWS-Glue-Datenkatalog können Sie die Datensicherheit und -Governance zentralisieren und Metadaten und Datenberechtigungen an einem Ort mit vertrauten Funktionen im Datenbankstil verwalten. Er bietet auch eine differenzierte Datenzugriffskontrolle.

Beginnen Sie mit der Datenvirtualisierung in AWS, indem Sie noch heute ein kostenloses Konto erstellen.