- Was ist Cloud Computing?›
- Hub für Cloud-Computing-Konzepte›
- Analytik›
- Datenbanken
Was ist Datenverwaltung?
Was ist Datenverwaltung?
Datenverwaltung ist der Prozess des Erfassens, Speicherns, Sicherns und Nutzens der Daten einer Organisation. Während Unternehmen heute über mehrere verschiedene Datenquellen verfügen, müssen sie die Daten analysieren und integrieren, um Business Intelligence für die strategische Planung abzuleiten. Die Datenverwaltung umfasst alle Richtlinien, Tools und Verfahren, die die Verwendbarkeit der Daten im Rahmen von Gesetzen und Vorschriften verbessern.
Warum ist Datenverwaltung wichtig?
Daten gelten als wertvolle Ressource für moderne Organisationen. Durch den Zugriff auf große Volumina und verschiedene Datentypen investieren Unternehmen erheblich in die Datenspeicher- und Verwaltungsinfrastruktur. Sie verwenden Datenmanagementsysteme, um Business Intelligence- und Datenanalysevorgänge effizienter auszuführen. Im Folgenden werden einige Vorteile der Datenverwaltung aufgeführt.
Umsatz und Gewinn steigern
Die Datenanalyse gibt tiefere Einblicke in alle Aspekte eines Unternehmens. Sie können diese Erkenntnisse nutzen, um den Geschäftsbetrieb zu optimieren und die Kosten zu senken. Datenanalysen können auch die zukünftigen Auswirkungen von Entscheidungen vorhersagen und so die Entscheidungsfindung und Geschäftsplanung verbessern. Daher verzeichnen Unternehmen durch die Verbesserung ihrer Datenverwaltungstechniken ein erhebliches Umsatzwachstum und Gewinne.
Dateninkonsistenz reduzieren
Ein Datensilo ist eine Sammlung von Rohdaten innerhalb einer Organisation, auf die nur eine Abteilung oder Gruppe zugreifen kann. Datensilos führen zu Inkonsistenzen, die die Zuverlässigkeit der Datenanalyseergebnisse verringern. Datenverwaltungslösungen führen Daten zusammen und schaffen eine zentralisierte Datenansicht für eine verbesserte Zusammenarbeit zwischen Abteilungen.
Einhaltung gesetzlicher Vorschriften
Gesetze wie die Allgemeine Datenschutzverordnung (GDPR) und der California Consumer Privacy Act (CCPA) dienen dem Schutz von Kundendaten. Diese Datenschutzgesetze beinhalten Mandate, die Folgendes erfordern:
-
Zustimmung zur Datenerfassung
-
Strenge Kontrollen über den Speicherort und die Verwendung von Daten
-
Sichere Datenspeicherung und Löschung auf Anfrage
Daher benötigen Unternehmen ein Datenverwaltungssystem, das fair, transparent und vertraulich ist, um Daten zu schützen und gleichzeitig die Genauigkeit zu gewährleisten.
Was sind die Schwerpunktbereiche der Datenverwaltung?
Die Praxis des Datenmanagements umfasst neben der Datenverwaltung auch die Erfassung und Verteilung hochwertiger Daten zur Kontrolle des Datenzugriffs.
Daten-Governance umfasst die Richtlinien und Verfahren, die ein Unternehmen implementiert, um Datensicherheit, Integrität und verantwortungsvollen Datennutzung zu verwalten. Es definiert die Datenverwaltungsstrategie und legt fest, wer auf welche Daten zugreifen kann. Daten-Governance-Richtlinien legen auch Rechenschaftspflicht für die Art und Weise fest, wie Teams und Einzelpersonen auf Daten zugreifen und Zu den Daten-Governance-Funktionen gehören typischerweise:
Erstellung von Datenprofilen
Datenprofiling ist der diagnostische Prozess, bei dem Daten analysiert werden, um ihre Struktur, Qualität und Eigenschaften zu bestimmen. Dies ist der erste Schritt, um einen vorhandenen Datensatz zu verstehen und zu entscheiden, ob er vor der Verwendung überarbeitet werden muss oder nicht.
Datenherkunft
Data Lineage verfolgt den Datenfluss innerhalb einer Organisation. Die Datenherkunft mit Zeitstempel wird verwendet, um zu ermitteln, woher ein Datenelement stammt, wie es verwendet wurde und wann es transformiert wurde. Dieser Datenmanagementprozess ist besonders wichtig bei Prüfungsprozessen.
Datenkatalog
Datenkataloge sind eine Sammlung der Datenbestände des Unternehmens und der zugehörigen Metadaten. Durch die Speicherung aller datenbezogenen Informationen in einem zentralen Katalog wird dieser zum wichtigsten Datenregister innerhalb des Unternehmens. Benutzer können erwarten, dass der Datenkatalog die aktuellsten Informationen zu allen Datenbeständen enthält.
Datensicherheits- und Zugriffskontrolle
Daten-Governance verhindert unbefugten Zugriff auf Daten und schützt sie vor Beschädigung. Es umfasst alle Schutzaspekte, wie zum Beispiel die folgenden:
- Versehentliches Verschieben oder Löschen von Daten verhindern
- Sicherung des Netzwerkzugriffs zur Reduzierung des Risikos von Netzwerkangriffen
- Überprüfen, ob die physischen Rechenzentren, in denen Daten gespeichert werden, die Sicherheitsanforderungen erfüllen
- Schutz der Daten auch dann, wenn Mitarbeiter von privaten Geräten aus darauf zugreifen
- Benutzerauthentifizierung, Autorisierung und das Festlegen und Erzwingen von Zugriffsberechtigungen für Daten
- Sicherstellen, dass die gespeicherten Daten den Gesetzen des Landes entsprechen, in dem die Daten gespeichert werden
- Hinzufügen zusätzlicher Steuerungsebenen für sensible Daten
Datenkonformität
Richtlinien zur Datenkonformität reduzieren das Risiko behördlicher Bußgelder oder Maßnahmen. Die Einhaltung von Compliance-Gesetzen wie der DSGVO und dem CCPA ist für den Betrieb unerlässlich.
Die Compliance-Aktivitäten konzentrieren sich auf Datenmodellierung, Softwarekontrollen und Mitarbeiterschulungen, sodass die Einhaltung der Gesetze auf allen Ebenen gewährleistet ist. Beispielsweise arbeitet eine Organisation mit einem externen Entwicklungsteam zusammen, um ihre Datensysteme zu verbessern. Daten-Governance-Manager überprüfen, ob alle personenbezogenen Daten entfernt wurden, bevor sie sie an das externe Team zur Verwendung für Testzwecke weitergeben.
Verwaltung des Lebenszyklus von Daten
Datenlebenszyklusmanagement bezieht sich auf den Prozess der Verwaltung von Daten während ihres gesamten Lebenszyklus.
Zum Beispiel:
- Die Daten müssen bei der Einnahme und in regelmäßigen Abständen überprüft werden
- Daten müssen zu Prüfungszwecken für bestimmte Zeiträume aufbewahrt werden
- Daten müssen gelöscht werden, wenn sie nicht mehr benötigt werden
Datenqualitätsverwaltung
Benutzer von Daten erwarten, dass die Daten für jeden Anwendungsfall ausreichend zuverlässig und konsistent sind.
Datenqualitätsmanager messen und verbessern die Datenqualität eines Unternehmens. Sie überprüfen sowohl bestehende als auch neue Daten und stellen sicher, dass sie den Standards entsprechen. Sie können auch Datenverwaltungsprozesse einrichten, die verhindern, dass Daten mit geringer Qualität in das System gelangen. Datenqualitätsstandards messen in der Regel Folgendes:
- Fehlen wichtige Informationen oder sind die Daten vollständig? (Zum Beispiel lässt der Kunde wichtige Kontaktinformationen aus)
- Entsprechen die Daten den grundlegenden Datenprüfungsregeln? (Zum Beispiel sollte eine Telefonnummer eine bestimmte Anzahl von Ziffern haben)
- Wie oft erscheinen dieselben Daten im System? (z. B. doppelte Dateneinträge desselben Kunden)
- Sind die Daten korrekt? (Zum Beispiel gibt der Kunde die falsche E-Mail-Adresse ein)
- Ist die Datenqualität im gesamten System konsistent? (Beispielsweise liegt das Geburtsdatum in einem Datensatz im Format TT/MM/JJJJ, in einem anderen Datensatz jedoch im Format MM/TT/JJJJ vor)
Datenintegration
Endpunkte für die Datenverteilung
In den meisten Organisationen müssen Daten an (oder in der Nähe) der verschiedenen Endpunkte verteilt werden, an denen die Daten benötigt werden. Dazu gehören Betriebssysteme, Data Lakes und Data Warehouses. Die Datenverteilung ist aufgrund von Netzwerklatenzen erforderlich. Wenn Daten für den betrieblichen Gebrauch benötigt werden, reicht die Netzwerklatenz möglicherweise nicht aus, um sie rechtzeitig bereitzustellen. Das Speichern einer Kopie der Daten in einer lokalen Datenbank behebt das Problem der Netzwerklatenz.
Die Datenverteilung ist auch für die Datenkonsolidierung erforderlich. Data Warehouses und Data Lakes konsolidieren Daten aus verschiedenen Quellen, um eine konsolidierte Ansicht der Informationen zu bieten. Data Warehouses werden für Analysen und Entscheidungsfindung verwendet, während Data Lakes ein konsolidierter Hub sind, aus dem Daten für verschiedene Anwendungsfälle extrahiert werden können.
Datenreplikationsmechanismen und Auswirkungen auf die Konsistenz
Datenverteilungsmechanismen haben potenzielle Auswirkungen auf die Datenkonsistenz, und dies ist ein wichtiger Aspekt bei der Datenverwaltung.
Starke Konsistenz resultiert aus der synchronen Replikation von Daten. Bei diesem Ansatz sehen alle Anwendungen und Benutzer den geänderten Wert der Daten, wenn ein Datenwert geändert wird. Wenn der neue Wert der Daten noch nicht repliziert wurde, wird der Zugriff auf die Daten gesperrt, bis alle Kopien aktualisiert sind. Synchrone Replikation priorisiert Konsistenz vor Leistung und Zugriff auf Daten. Synchrone Replikation wird am häufigsten für Finanzdaten verwendet.
Eventuelle Konsistenz ergibt sich aus der asynchronen Replikation von Daten. Wenn Daten geändert werden, werden die Kopien schließlich aktualisiert (normalerweise innerhalb von Sekunden), der Zugriff auf veraltete Kopien wird jedoch nicht blockiert. Für viele Anwendungsfälle ist dies kein Problem. Beispielsweise erfordern Social-Media-Posts, Likes und Kommentare keine strikte Konsistenz. Ein weiteres Beispiel: Wenn ein Kunde seine Telefonnummer in einer Anwendung ändert, kann diese Änderung asynchron kaskadiert werden.
Streaming mit Batch-Updates vergleichen
Datenströme kaskadieren Datenänderungen, sobald sie auftreten. Dies ist der bevorzugte Ansatz, wenn der Zugriff auf Daten nahezu in Echtzeit erforderlich ist. Daten werden extrahiert, transformiert und an ihr Ziel geliefert, sobald sie geändert werden.
Batch-Aktualisierungen sind besser geeignet, wenn Daten vor der Auslieferung stapelweise verarbeitet werden müssen. Das Zusammenfassen oder Durchführen einer statistischen Analyse der Daten und die Bereitstellung nur des Ergebnisses ist ein Beispiel dafür. Batch-Aktualisierungen können auch die interne Konsistenz der Daten zu einem bestimmten Zeitpunkt beibehalten, wenn alle Daten zu einem bestimmten Zeitpunkt extrahiert werden. Batch-Aktualisierungen durch einen Extract, Transform, Load (ETL oder ELT)-Prozess werden in der Regel für Data Lakes, Data Warehousing und Analysen verwendet.
Verwaltung der Stammdaten
Master Data Management (MDM) bezieht sich auf den Prozess der Verwaltung wichtiger Geschäftsdaten. Datenkonsistenz und Datensynchronisierung sind beide für MDM von großer Bedeutung.
Beispiele für Stammdaten sind Kundendaten, Partnerdaten und Produktdaten. Diese Fundamentaldaten sind hauptsächlich persistent und ändern sich nicht oft. Zu den verwendeten Daten gehören beispielsweise Customer Relationship Management (CRM) und Enterprise Resource Planning (ERP) -Software.
Das Stammdatenmanagement ist unerlässlich, um die Genauigkeit systemübergreifend sicherzustellen, einschließlich der Synchronisation und Datenintegration bei Aktualisierungen.

Was sind einige Herausforderungen bei der Datenverwaltung?
Im Folgenden sind allgemeine Herausforderungen bei der Datenverwaltung aufgeführt.
Größe und Leistung
Unternehmen benötigen Datenverwaltungssoftware, die auch im großen Maßstab effizient arbeitet. Sie müssen die Datenverwaltungs-Infrastruktur kontinuierlich überwachen und neu konfigurieren, um Spitzenreaktionszeiten auch bei exponentiellem Datenwachstum aufrechtzuerhalten.
Wechselnde Anforderungen
Compliance-Vorschriften sind komplex und ändern sich im Laufe der Zeit. In ähnlicher Weise ändern sich auch die Kundenanforderungen und Geschäftsanforderungen schnell. Obwohl Unternehmen bei den Datenmanagementplattformen, die sie verwenden können, mehr Auswahl haben, müssen sie Infrastrukturentscheidungen ständig bewerten, um maximale IT-Flexibilität, Einhaltung gesetzlicher Vorschriften und niedrigere Kosten zu gewährleisten.
Mitarbeiterschulung
Der Start des Datenverwaltungsprozesses in jedem Unternehmen kann eine Herausforderung sein. Das schiere Datenvolumen kann überwältigend sein, und möglicherweise gibt es auch abteilungsübergreifende Silos. Die Planung einer neuen Datenverwaltungsstrategie und die Akzeptanz neuer Systeme und Prozesse durch Mitarbeiter erfordert Zeit und Mühe.
Was sind einige bewährte Methoden für die Datenverwaltung?
Best Practices für das Datenmanagement bilden die Grundlage für eine erfolgreiche Datenstrategie. Im Folgenden finden Sie allgemeine Datenmanagementprinzipien, die Ihnen beim Aufbau einer starken Datengrundlage helfen.
Zusammenarbeit im Team
Geschäftsanwender und technische Teams müssen zusammenarbeiten, um sicherzustellen, dass die Datenanforderungen eines Unternehmens erfüllt werden. Bei der gesamten Datenverarbeitung und -analyse sollten die Anforderungen an Business Intelligence priorisiert werden. Andernfalls bleiben die gesammelten Daten ungenutzt und Ressourcen werden in schlecht geplanten Datenverwaltungsprojekten verschwendet.
Automatisierung
Eine erfolgreiche Datenverwaltungsstrategie beinhaltet Automatisierung bei den meisten Datenverarbeitungs- und Vorbereitungsaufgaben. Das manuelle Ausführen von Datentransformationsaufgaben ist mühsam und führt auch zu Fehlern im System. Selbst eine begrenzte Anzahl manueller Aufgaben, wie das Ausführen wöchentlicher Batch-Aufträge, kann zu Systemengpässen führen. Datenverwaltungssoftware kann eine schnellere und effizientere Skalierung unterstützen.
Cloud-Computing
Unternehmen benötigen moderne Datenverwaltungslösungen, die ihnen ein breites Spektrum an Funktionen bieten. Eine Cloud-Lösung kann alle Aspekte des Datenmanagements in großem Maßstab verwalten, ohne die Leistung zu beeinträchtigen. Beispielsweise bietet AWS eine breite Palette von Funktionen wie Datenbanken, Data Lakes, Analysen, Datenzugänglichkeit, Datenverwaltung und Sicherheit aus einem einzigen Konto heraus.
Wie kann AWS bei der Datenverwaltung helfen?
AWS ist eine globale Datenverwaltungsplattform, mit der Sie eine moderne Cloud-Datenmanagementstrategie entwickeln können. Dies sind nur einige der Dienste, die Ihnen beim Aufbau Ihrer modernen Cloud-Dateninfrastruktur helfen können.
Amazon DataZone ist ein Datenverwaltungsservice, der es Kunden schneller und einfacher macht, Daten zu katalogisieren, zu finden, zu teilen und zu verwalten, die in AWS, vor Ort und in Quellen von Drittanbietern gespeichert sind.
AWS Glue ist ein serverloser Service, der die Datenintegration einfacher, schneller und günstiger macht. Sie können auf mehr als 100 verschiedene Datenquellen zugreifen und sich mit ihnen verbinden, Ihre Daten in einem zentralen Datenkatalog verwalten und Datenpipelines visuell erstellen, ausführen und überwachen, um Daten in Ihre Data Lakes, Data Warehouses und Lakehouses zu laden.
Amazon Simple Storage Service (Amazon S3) ist ein Objektspeicherservice, der branchenführende Skalierbarkeit, Datenverfügbarkeit, Sicherheit und Leistung bietet. Millionen von Kunden aller Größen und Branchen speichern, verwalten, analysieren und schützen jede Menge an Daten für praktisch jeden Anwendungsfall, z. B. Data Lakes, cloudnative Anwendungen und Apps für Mobilgeräte.
Mit AWS Lake Formation können Sie Daten für Analysen und maschinelles Lernen zentral verwalten, sichern und gemeinsam nutzen. AWS Lake Formation hilft Ihnen dabei, fein abgestimmte Datenzugriffsberechtigungen zentral zu verwalten und zu skalieren und Daten vertrauensvoll innerhalb und außerhalb Ihres Unternehmens auszutauschen.
Amazon Relational Database Service (Amazon RDS) ist ein einfach zu verwaltender relationaler Datenbankservice, der für die Gesamtbetriebskosten optimiert ist. Sie ist einfach einzurichten, zu bedienen und je nach Bedarf zu skalieren.
Amazon Virtual Private Cloud (Amazon VPC) hilft Ihnen, AWS-Ressourcen in einem logisch isolierten virtuellen Netzwerk zu definieren und zu starten. Amazon VPC trägt dazu bei, den Datenschutz in Ihrer gesamten Cloud-Umgebung zu gewährleisten.
Beginnen Sie mit dem Aufbau Ihrer Cloud-Datenverwaltungslösung auf AWS, indem Sie noch heute ein AWS-Konto erstellen.