Überspringen zum Hauptinhalt

Was ist Datenintegrität?

Datenintegrität betont die Aufrechterhaltung der Datenintegrität und stellt sicher, dass die Daten während ihres gesamten Lebenszyklus korrekt, fehlerfrei, konsistent und voll funktionsfähig sind. Die Aufrechterhaltung der Datenintegrität in einem einzigen Datenspeicher muss unabhängig von der Anzahl der Zugriffsanforderungen sowie dem Datenvolumen und der Geschwindigkeit verwaltbar sein. Moderne Cloud-Umgebungen erfordern eine komplexe, kontinuierliche Datenverlagerung zwischen verteilten Datenspeichern und Services. OLTP-Systeme (Online Transaction Processing) mit hohem Durchsatz erfordern strenge Datenintegritätsprüfungen, um die Systemkonsistenz aufrechtzuerhalten. Dateningenieure müssen Datenintegritätsprüfungen für neue und bestehende Datenspeicher und Prozesse durchführen, einschließlich Integration, Backups und Cloud-Migrationen. In diesem Artikel werden Herausforderungen und Lösungen für das Datenintegritätsmanagement in der Cloud untersucht.

Datenintegrität ist der Prozess, bei dem die Genauigkeit, Konsistenz und Vollständigkeit von Daten während des gesamten Lebenszyklus aufrechterhalten werden. Sie ist ein wichtiger Bestandteil der Datenqualitätssicherung, die sicherstellt, dass die Daten eines Unternehmens für die Transaktionsverarbeitung, Business Intelligence und Analytik relevant und zuverlässig sind. Datenintegrität umfasst verschiedene Methoden und Protokolle zur Validierung von Daten und zum Schutz sensibler Informationen vor unbefugtem Zugriff.

Warum ist Datenintegrität wichtig? Sie stellt sicher, dass die Daten eines Unternehmens für die Aufzeichnung von finanziellen und anderen Geschäftsaktivitäten sowie für die Entscheidungsfindung vertrauenswürdig bleiben. Datenintegrität ist unerlässlich, unabhängig von den Tools und Rollen, die die Daten und ihre Transformationen verarbeiten.

Datenintegrität ist in OLTP-Systemen (Online Transaction Processing, Online-Transaktionsverarbeitung) von entscheidender Bedeutung, da sie die genaue Verarbeitung von Geschäftstransaktionen und die Konsistenz von Finanbetrieben gewährleistet und Probleme wie Doppelbuchungen oder verlorene Transaktionen verhindert. Versäumnisse in der Datenintegrität können Folgen haben, darunter die Nichteinhaltung gesetzlicher Vorschriften und eine verringerte Kundenzufriedenheit.

Was sind die Herausforderungen bei der Aufrechterhaltung der Datenintegrität?

Um die Datenintegrität innerhalb eines Unternehmens zu gewährleisten, müssen die Herausforderungen im Daten-Management im Zusammenhang mit Menschen und Technologie angegangen werden.

OLTP-Umgebungen

Die größte Herausforderung für die Datenintegrität in OLTP-Umgebungen besteht darin, gleichzeitige Transaktionen zu verwalten und gleichzeitig die Datenkonsistenz aufrechtzuerhalten, insbesondere bei Vorgängen mit hohem Datenvolumen. Diese Herausforderung erfordert ein ausgewogenes Verhältnis zwischen der strikten Einhaltung von Atomizität, Konsistenz, Isolation und Haltbarkeit (ACID) und den Leistungsanforderungen. Hier müssen mehrere Benutzer in der Lage sein, dieselben Daten gleichzeitig zu ändern, ohne auf Wettlaufbedingungen und Deadlocks zu stoßen, während gleichzeitig die Echtzeitverarbeitungsfunktionen des Systems erhalten bleiben.

Business Intelligence und Analytik

Bei Business-Intelligence- und Analytik-Anwendungsfällen verhindert eine begrenzte Integration zwischen Datenquellen und Systemen, dass Unternehmen einen einheitlichen, genauen Überblick über ihre Datenbestände behalten können. Außerdem kann die Abhängigkeit von manueller Dateneingabe und -erfassung zu Tippfehlern, Auslassungen und Inkonsistenzen führen, die die Datengenauigkeit beeinträchtigen.

Prüfungen und Datenspuren

Eine weitere Herausforderung ist das Fehlen ordnungsgemäßer Audit Trails, was die Nachverfolgung des Datenverlaufs von der Erfassung bis zur Löschung erschwert. Unternehmen laufen Gefahr, den Überblick über unbefugte Datenänderungen zu verlieren. Legacy-Systeme erschweren die Datenintegrität zusätzlich, indem sie veraltete Dateiformate verwenden oder wichtige Validierungsfunktionen fehlen. Die Verschiebung von Daten in die Cloud ermöglicht die Implementierung zentralisierterer Datenqualitätsmechanismen und reduziert den Zeit- und Arbeitsaufwand für Datenintegritätsprüfungen.

Wie werden Daten in der Cloud geschützt?

Datenintegrität kann in zwei große Typen unterteilt werden.

Körperliche Integrität

Prozesse zur physischen Integrität schützen Daten vor Schäden und Zerstörungen aufgrund von Naturkatastrophen, Stromausfällen, Hardwareausfällen oder anderen Faktoren, die physische Speichergeräte beeinträchtigen. In der Cloud wird die physische Integrität automatisch vom Cloud-Anbieter verwaltet. Dies liegt in der Verantwortung des Cloud-Anbieters im Rahmen des Modell der geteilten Verantwortung.

AWS-Rechenzentren bieten beispielsweise eine vierschichtige Datensicherheitsinfrastruktur für die physischen Geräte, auf denen Ihre Daten gespeichert sind. Zu den Datensicherheits-Features gehören:

  • Strenge Zugangskontrollen mit Zugriff auf den Serverraum, der durch Multifaktor-Authentifizierung und elektronische Kontrollen gesichert ist.
  • Maßnahmen zur Eindringverhinderung, wie die automatische Erkennung unbefugter Datenlöschungen.
  • Sicheres Speichergeräte-Management von der Installation und Bereitstellung bis hin zur Deinstallation und Außerbetriebnahme.
  • Strenge Prüfungen durch Dritte zu über 2 600 Sicherheitsanforderungen, einschließlich Geräteinspektionen.

Logische Integrität

Logische Integritätsprozesse stellen sicher, dass Daten den zugrundeliegenden Regeln des Speichersystems entsprechen, in dem sie sich befinden. Die logische Integrität kann weiter in vier Untertypen eingeteilt werden:

  • Die Domain-Integrität gewährleistet die Datengenauigkeit, indem sie Werte innerhalb eines bestimmten Bereichs, Formats oder vordefinierten Satzes einschränkt (z. B. durch Verwendung von Datentypen und anderen ähnlichen Datenbeschränkungen).
  • Die Entitätsintegrität stellt sicher, dass einzelne Datensätze durch Mechanismen wie einen Primärschlüssel eindeutig identifiziert werden können, wodurch doppelte oder Nullwerte in Schlüsselfeldern verhindert werden.
  • Die referenzielle Integrität sorgt für konsistente Beziehungen zwischen Tabellen, indem Fremdschlüsseleinschränkungen durchgesetzt werden, um isolierte Datensätze zu verhindern.
  • Benutzerdefinierte Integrität implementiert geschäftsspezifische Regeln, die über Standardbeschränkungen hinausgehen, wie z. B. benutzerdefinierte Validierungslogik oder Durchsetzung auf Anwendungsebene.

Der Cloud-Benutzer ist dafür verantwortlich, logische Integritätsbeschränkungen zu implementieren und die Datenqualität sicherzustellen. Dies liegt im Rahmen des Modells der geteilten Verantwortung in der Verantwortung des Kunden.

AWS-Datenservices bieten jedoch verschiedene Mechanismen zur Unterstützung der Datenintegritätsprüfung, wie Prüfsummenalgorithmen, Tools zur Überwachung der Datenqualität und automatische Datenintegritätsprüfungen bei Backups und Datensynchronisierung.

Managed Services können automatische und konfigurierbare Integritätsschutze für Ihre Datenintegrität bereitstellen. In OLTP-Systemen und Datenbanken tragen logische Integritätsprozesse dazu bei, dass jede Transaktion atomar, konsistent, isoliert und dauerhaft bleibt.

Wie kann die Datenintegrität in der Cloud gewährleistet werden?

Ziehen Sie die folgenden Maßnahmen in Betracht, um die logische Integrität in der AWS-Cloud zu implementieren.

Die Integrität von Objektdaten implementieren

Die meisten Cloud-Datenoperationen beginnen mit Amazon-S3-Buckets, die jeden Datentyp als Objekte speichern können. Sie können häufig Daten zwischen Amazon-S3-Buckets, Datenbanken und anderen Cloud-Services oder On-Premises-Speicher verschieben. Amazon S3 bietet integrierte Prüfsummenmechanismen, um Datenintegritätsrisiken bei Uploads, Downloads und Kopien zu reduzieren.

Eine Prüfsumme ist ein eindeutiger Wert mit fester Länge, der mithilfe eines bestimmten Algorithmus aus Daten generiert wird. Sie erzeugt einen einzigartigen digitalen Fingerabdruck, der es Systemen ermöglicht, Datenbeschädigungen oder unbeabsichtigte Änderungen zu erkennen. Beim Kopieren von Objekten berechnet Amazon S3 die Prüfsumme des Quellobjekts und wendet sie auf das Zielobjekt an. Im Falle einer Nichtübereinstimmung werden Warnmeldungen ausgelöst. Amazon S3 unterstützt sowohl vollständige Objekt- als auch zusammengesetzte Prüfsummen für mehrteilige Uploads. Vollständige Objektprüfsummen decken die gesamte Datei ab, während zusammengesetzte Prüfsummen einzelne Prüfsummen auf Teilebene aggregieren.

Verwenden Sie die Prüfsummenfunktion wie unten erklärt.

Uploads

Amazon S3 unterstützt mehrere Secure Hash Algorithmen (SHA) und Algorithmen von Cyclic Redundancy Check (CRC), darunter CRC-64/NVME, CRC-32, CRC-32C, SHA-1 und SHA-256. Wenn Sie die AWS-Managementkonsole verwenden, wählen Sie beim Hochladen den Prüfsummenalgorithmus aus. Wenn keine Prüfsumme angegeben wird, verwendet Amazon S3 standardmäßig CRC-64/NVME.

Downloads

Fordern Sie beim Herunterladen von Objekten den gespeicherten Prüfsummenwert an, um die Datenintegrität zu überprüfen. Abhängig davon, ob der Upload abgeschlossen ist oder noch ausgeführt wird, rufen Sie Prüfsummenwerte mithilfe der Vorgänge GetObject, HeadObject oder ListParts ab.

Kopieren

Wenn ein Objekt mithilfe des CopyObject-Vorgangs kopiert wird, generiert Amazon S3 eine direkte Prüfsumme für das gesamte Objekt. Wenn das Objekt ursprünglich als mehrteiliger Upload hochgeladen wurde, ändert sich sein Prüfsummenwert beim Kopieren, auch wenn die Daten unverändert bleiben.

Die Integrität der Data-Pipeline implementieren

Ein weiterer häufiger Anwendungsfall ist das Verschieben von Daten in Cloud-Data Lakes, Warehouses oder verwaltete Datenbank-Services. Das Einrichten von Datenintegritätsprüfungen in solchen Data-Pipelines ist fehleranfällig, mühsam und zeitaufwändig. Sie müssen manuell Überwachungscode und Datenqualitätsregeln schreiben, die Datenverbraucher warnen, wenn sich die Datenqualität verschlechtert.

Während der Migration

Der AWS Database Migration Service (DMS) schützt die Datenintegrität bei Migrationen zu AWS-Cloud-Datenbanken durch mehrere integrierte Schutzmaßnahmen und Validierungsmechanismen. DMS führt eine automatische Validierung durch, um Quell- und Zieldaten zu vergleichen und Diskrepanzen durch Neusynchronisierung der Daten zu identifizieren und zu beheben.

DMS umfasst Checkpoint- und Notfallwiederherstellungs-Features, die es ermöglichen, Migrationen im Falle von Unterbrechungen vom letzten fehlerfreien Zustand wieder aufzunehmen, und bietet gleichzeitig umfassende Überwachungs- und Protokollierungsfunktionen, um den Migrationsfortschritt zu verfolgen. Zudem gewährleistet DMS die Datensicherheit durch SSL-Verschlüsselung für Daten bei der Übertragung und Integration mit AWS-Sicherheitsservices.

Datenbank-Infrastruktur

AWS-Datenbanken schützen die Datenintegrität durch mehrere umfassende Mechanismen und Features, einschließlich automatisierter Backups und Multi-AZ-Bereitstellungen, die die Haltbarkeit und Konsistenz der Daten gewährleisten. Diese Datenbanken erzwingen die referenzielle Integrität durch integrierte Einschränkungen, gewährleisten die ACID-Konformität, um die Transaktionskonsistenz zu gewährleisten, und bieten Notfallwiederherstellungsfunktionen zu einem bestimmten Zeitpunkt. Verwaltete Datenbank-Services wie Amazon Relational Database Service (RDS) und Amazon Aurora ermöglichen es Ihnen, spezifische Kontrollen für die Datenintegrität einzurichten. Mit Aurora können Sie beispielsweise verschiedene Transaktionsisolationsstufen für Ihre OLTP-Datenbank festlegen.

Für einen verbesserten Schutz unterstützen AWS-Datenbanken die Notfallwiederherstellung durch Bereitstellungen in mehreren Regionen, wobei Daten bei geografisch verteilten Regionen repliziert werden. Die Integration mit Amazon CloudWatch hilft dabei, potenzielle Datenintegritätsprobleme zu identifizieren und zu lösen, bevor sie sich auf den Betrieb auswirken.

Datenintegration

AWS Glue ist ein Serverless-Datenintegrationsservice für die Vorbereitung und Kombination von Daten in der AWS-Cloud. AWS Glue Data Quality reduziert den manuellen Datenvalidierungsaufwand von Tagen auf Stunden. Das Feature empfiehlt automatisch Qualitätsregeln, berechnet Statistiken und überwacht und warnt Sie, wenn falsche oder unvollständige Daten erkannt werden. Es funktioniert mit der Data Quality Definition Language (DQDL), einer Domain-spezifischen Sprache, mit der Sie Datenintegritätsregeln definieren.

Beim Sammeln von Daten aus OLTP-Systemen zur Verwendung in Analysen können Sie AWS-Glue-Pipelines verwenden, um Daten aus Ihren Datenbanken an Analytik-Services weiterzuleiten.

Sie können außerdem Metriken zur Überwachung und Alarmierung auf Amazon CloudWatch veröffentlichen.

Integrität der Datensicherung implementieren

Bei großen Unternehmensprojekten können verschiedene Teams Datensicherungen erstellen und von verschiedenen Standorten aus auf Amazon-S3-Stores zugreifen. Die Daten-Governance wird bei solchen verteilten Datensicherungsvorgängen zu einer Herausforderung. Bitte beachten Sie, dass AWS-Datenbanken über integrierte Backup-Features verfügen.

AWS Backup ist ein vollständig verwalteter Service, der den Datenschutz für AWS-Services wie Amazon Simple Storage Service (S3), Amazon Elastic Compute Cloud (EC2), Amazon FSx und hybride Workloads in VMware zentralisiert und automatisiert. Sie können Datenschutzrichtlinien zentral bereitstellen, um Ihre Backup-Aktivitäten für AWS-Ressourcen und Konten zu steuern, zu verwalten und zu konfigurieren.

AWS Backup wurde entwickelt, um die Datenintegrität während des gesamten Datenlebenszyklus aufrechtzuerhalten, von der Übertragung über die Speicherung bis hin zur Verarbeitung. AWS Backup wendet strenge Sicherheitsmaßnahmen bei allen gespeicherten Daten an, unabhängig von ihrem Typ, und gewährleistet so einen hohen Schutz vor unbefugtem Datenzugriff. Sie behalten die vollständige Kontrolle über Datenklassifizierung, Speicherorte und Sicherheitsrichtlinien, sodass sie Daten gemäß ihren Bedürfnissen verwalten, archivieren und schützen können.

AWS Backup arbeitet mit anderen AWS-Services zusammen, um die Datenintegrität mithilfe mehrerer Mechanismen zu wahren. Dazu zählen:

  • Kontinuierliche Prüfsummenvalidierung zur Vermeidung von Beschädigungen.
  • Interne Prüfsummen zur Überprüfung der Datenintegrität während der Übertragung und im Ruhezustand.
  • Automatische Wiederherstellung der Redundanz bei Festplattenausfällen.

Daten werden redundant an mehreren physischen Standorten gespeichert, und Prüfungen auf Netzwerkebene helfen auch dabei, Beschädigungen bei Datenübertragungen zu erkennen.

Wie kann AWS zur Aufrechterhaltung der Datenintegrität beitragen?

Datenintegrität verbessert auch das Vertrauen in der Analytik, unterstützt die Einhaltung von Vorschriften und stellt sicher, dass Daten während ihres gesamten Lebenszyklus wertvoll bleiben. Bei On-Premises Bereitstellungen ist die Sicherstellung der Datenintegrität jedoch eine Herausforderung und kostspielig und kann zu Verlusten von Stunden aufgrund manueller, verteilter und redundanter Arbeit führen.

Cloud-Technologien zentralisieren den Prozess und erledigen den Großteil der Arbeit für Sie. Standardmäßig sind mehrere physische und logische Integritätsprüfungen integriert. Automatisierungsmechanismen generieren selbst die Softwareregeln, die zur Erreichung der Datenintegrität erforderlich sind. Dateningenieure müssen nur Einstellungen konfigurieren oder die Arbeit überprüfen, die von automatisierten Mechanismen ausgeführt wird. Die Datenintegrität ermöglicht es OLTP-Systemen, perfekte Genauigkeit bei der Verarbeitung von großvolumigen Echtzeit-Transaktionen aufrechtzuerhalten, was für zuverlässige Geschäftsvorgänge und -praktiken von entscheidender Bedeutung ist.

Beginnen Sie, indem Sie noch heute ein kostenloses Cloud-Konto erstellen.