Was ist Datenmaskierung?

Bei der Datenmaskierung werden Daten durch Ändern ihrer ursprünglichen Buchstaben und Zahlen ausgeblendet. Aufgrund gesetzlicher Vorschriften und Datenschutzbestimmungen müssen Unternehmen die vertraulichen Daten, die sie über ihre Kunden und ihren Betrieb erfassen, schützen. Durch die Datenmaskierung werden gefälschte Versionen der Daten eines Unternehmens erstellt, indem vertrauliche Informationen verändert werden. Um realistische und strukturell ähnliche Veränderungen zu erzeugen, werden verschiedene Methoden eingesetzt. Sobald die Daten maskiert sind, können Sie ohne Zugriff auf den Originaldatensatz keine Rückschlüsse mehr auf die ursprünglichen Datenwerte ziehen.

Welche Anwendungsfälle gibt es für die Datenmaskierung?

Datenmaskierungsmethoden unterstützen die Bemühungen eines Unternehmens, Datenschutzbestimmungen wie die Datenschutz-Grundverordnung (DSGVO) einzuhalten. Sie können viele Datentypen wie persönlich identifizierbare Informationen (PII), Finanzdaten, geschützte Gesundheitsinformationen (PHI) sowie geistiges Eigentum schützen.

Als nächstes erkunden wir einige Anwendungsfälle der Datenmaskierung.

Sichere Entwicklung

Softwareentwicklungs- und Testumgebungen erfordern zu Testzwecken reale Datensätze. Allerdings wirft die Verwendung echter Daten Sicherheitsbedenken auf. Mit der Datenmaskierung können Entwickler und Tester mit realistischen Testdaten arbeiten, die dem Original ähneln, aber keine vertrauliche Daten preisgeben. Dies vermindert Sicherheitsrisiken in Entwicklungs- und Testzyklen.

Analytik und Forschung

Durch die Datenmaskierung können Datenwissenschaftler und -analysten mit großen Datensätzen arbeiten, ohne die Privatsphäre des Einzelnen zu gefährden. Forscher leiten aus den Daten wertvolle Erkenntnisse und Trends ab und sorgen für den Datenschutz. Wissenschaftler können beispielsweise anonymisierte Datensätze verwenden, um die Wirksamkeit neuer Medikamente zu untersuchen, Behandlungsergebnisse zu analysieren oder mögliche Nebenwirkungen zu erforschen.

Externe Zusammenarbeit

Unternehmen müssen oftmals Daten mit externen Partnern, Verkäufern oder Beratern austauschen. Durch die Maskierung bestimmter Felder oder Attribute können Unternehmen mit externen Parteien zusammenarbeiten und dennoch vertrauliche Daten schützen.

Mitarbeiterschulung

Sie können die Datenmaskierung für Mitarbeiterschulungen oder Softwarevorführungen verwenden. Durch die Maskierung vertraulicher Daten können Unternehmen realistische Beispiele liefern, ohne echte Kunden- oder Geschäftsdaten preiszugeben. Mitarbeiter können Fähigkeiten erlernen und üben, ohne auf Daten zugreifen zu müssen, für die sie keine Berechtigung haben.

Welche Arten der Datenmaskierung gibt es?

Als Nächstes stellen wir einige gängige Datenmaskierungstypen vor.

Statische Datenmaskierung

Unter statischer Datenmaskierung versteht man den Prozess, bei dem ein fester Satz von Maskierungsregeln auf sensible Daten angewendet wird, bevor diese gespeichert oder weitergegeben werden. Es wird üblicherweise für Daten verwendet, die sich nicht häufig ändern oder im Laufe der Zeit statisch bleiben. Sie definieren die Regeln vorab und wenden sie konsistent auf die Daten an, wodurch eine konsistente Maskierung über mehrere Umgebungen hinweg sichergestellt wird.

Auch wenn die Details komplex sind, finden Sie nachfolgend einen Überblick über den Prozess der statischen Datenmaskierung:

Sensible Daten identifizieren und verstehen
Maskierungsregeln entwerfen und entwickeln
Geeignete Algorithmen zur Datenmaskierung wählen
Maskierungsregeln auf die tatsächlichen Daten anwenden

Sie können die maskierten Daten dann nach Bedarf freigeben.

Dynamische Datenmaskierung

Bei der dynamischen Datenmaskierung werden Maskierungstechniken in Echtzeit angewendet. Es ändert vorhandene vertrauliche Daten dynamisch, wenn Benutzer darauf zugreifen oder diese abfragen. Es wird hauptsächlich zur Implementierung rollenbasierter Datensicherheit in Anwendungen wie dem Kundensupport oder der Bearbeitung von Krankenakten verwendet.

Die dynamische Datenmaskierung funktioniert wie folgt:

Alle Benutzer kommunizieren über einen Proxy-Server mit der Datenbank
Wenn Benutzer das Lesen von Daten anfordern, wendet der Datenbank-Proxy Maskierungsregeln basierend auf Benutzerrollen, Privilegien oder Zugriffsberechtigungen an
Autorisierte Benutzer erhalten die Originaldaten, während nicht autorisierte Benutzer maskierte Daten erhalten

Auch wenn für den Vorgang keine vorherige Vorbereitung erforderlich ist, kann er sich auf die Leistung auswirken.

Deterministische Datenmaskierung

Die deterministische Datenmaskierung stellt sicher, dass ein und derselbe Eingabewert stets mit demselben Ausgabewert maskiert wird. Wenn beispielsweise ein bestimmter Name in einem Fall als „Paul“ maskiert ist, wird er im gesamten System immer als „Paul“ maskiert.

Deterministische Maskierungsmethoden umfassen häufig Datensubstitution oder Tokenisierung, wobei eine konsistente Zuordnung zwischen der ursprünglichen Datenspalte und maskierten Werten aufrechterhalten wird.

Datenmaskierung im laufenden Betrieb

Durch die Datenmaskierung im laufenden Betrieb werden vertrauliche Daten im Speicher maskiert, sodass keine Notwendigkeit besteht, die geänderten Daten in der Datenbank zu speichern. Dies ist nützlich in Pipelines für die kontinuierliche Bereitstellung oder in komplexen Integrationsszenarien, in denen Daten häufig zwischen Produktions- und Nicht-Produktionsumgebungen verschoben werden. Auf der erforderlichen Stufe in der Pipeline maskiert die Anwendung die Daten und übergibt sie dann an die nächste Stufe in der Pipeline.

Statistische Verschleierung

Bei der Verschleierung statistischer Daten werden die Werte vertraulicher Daten so geändert, dass die statistischen Eigenschaften und Beziehungen innerhalb der Daten erhalten bleiben. Auf diese Weise wird sichergestellt, dass die maskierten Daten die Gesamtverteilung, Muster und Korrelationen der ursprünglichen Daten für eine genaue statistische Analyse beibehalten. Zu den Verschleierungsmethoden für statistische Daten gehört die Anwendung mathematischer Funktionen oder Störungsalgorithmen auf die Daten.

Welche gängigen Techniken zur Datenmaskierung gibt es?

Es gibt verschiedene Algorithmen, die Sie für den Datenschutz verwenden können. Nachfolgend finden Sie einige gängige Methoden zur Datenmaskierung.

Randomisierung

Bei der Randomisierung ersetzen Sie vertrauliche Daten durch zufällig generierte Werte, die keine Korrelation zu den Originaldaten aufweisen. Sie können beispielsweise Namen, Adressen oder andere persönlich identifizierbare Informationen durch fiktive oder zufällig ausgewählte Werte ersetzen.

Substitution

Bei der Substitutionsmaskierung handelt es sich um das Ersetzen vertraulicher Daten durch ähnliche, aber fiktive Daten. Sie können zum Beispiel tatsächliche Namen durch Namen aus einer vordefinierten Liste ersetzen. Sie können auch Algorithmen verwenden, um ähnliche, aber gefälschte Kreditkartennummern zu generieren.

Mischen

Beim Mischen ordnen Sie die Werte innerhalb eines Datensatzes neu an, um statistische Eigenschaften beizubehalten und einzelne Datensätze nicht identifizierbar zu machen. Diese Methode wird häufig zum Erhalt der Beziehungen innerhalb von Daten verwendet.

In einer Datentabelle können Sie beispielsweise Spaltendaten nach dem Zufallsprinzip mischen, sodass sich die Zeilenwerte ändern. Praktischerweise könnten Sie die Verbindung zwischen einem Kunden und seinen Transaktionen beibehalten, während Sie Namen und Kontaktdaten ändern.

Verschlüsselung

Bei der Verschlüsselungsmaskierung verschlüsseln Sie vertrauliche Daten mithilfe kryptografischer Algorithmen. Sie wandeln die Daten in ein unlesbares Format um und nur autorisierte Benutzer mit den Entschlüsselungsschlüsseln können auf die Originaldaten zugreifen. Diese Methode bietet ein höheres Maß an Datensicherheit, beeinträchtigt jedoch die Abfrageleistung, da für die Datenanalyse eine Entschlüsselung erforderlich ist.

Hashing

Beim Hashing handelt es sich um eine Umwandlungsmethode, die Daten in eine Zeichenfolge fester Länge umwandelt. Es wird häufig zum Maskieren von Passwörtern oder anderen vertraulichen Informationen verwendet, bei denen der Originalwert nicht benötigt wird und Sie nur die Daten überprüfen müssen.

Tokenisierung

Bei der Tokenisierung ersetzen Sie Produktionsdaten durch ein zufällig generiertes Token oder einen Referenzwert. Sie speichern die Originaldaten an einem separaten sicheren Ort und verwenden den Token als Ersatz während der Verarbeitung oder Analyse. Die Tokenisierung trägt dazu bei, die Datenintegrität aufrechtzuerhalten und gleichzeitig das Risiko der Offenlegung vertraulicher Informationen zu minimieren.

Nullung

Nullung (oder Ausblenden) ist eine Lösung zur Maskierung von Daten, bei der vertrauliche Daten durch Nullwerte oder Leerzeichen ersetzt werden. Dadurch werden die Daten effektiv aus dem Datensatz entfernt. Dieser Ansatz ist geeignet, wenn Sie das Format oder die Struktur der Daten beibehalten möchten, die spezifischen Informationen jedoch verborgen bleiben müssen.

Was sind die Herausforderungen bei der Datenmaskierung?

Nachfolgend besprechen wir einige häufig auftretende Herausforderungen bei der Datenmaskierung.

Erhaltung von Attributen

Für Forschung und Analysen ist es wichtig, dass bei der Datenmaskierung die ursprünglichen Datenattribute für bestimmte Datentypen erhalten bleiben. Sie möchten sicherstellen, dass Ihre Datenmaskierungstools die ursprünglichen Datentypen oder die Häufigkeit aller zugehörigen Datenkategorien beibehalten.

Wenn ein Tool beispielsweise die demografische Darstellung von Kundendaten oder Statistiken zu Kartenkategorien verändert, wenn es Kreditkarteninformationen verschleiert, kann dies Auswirkungen auf die Analytik haben. Die Beibehaltung von Attributen kann bei bestimmten Datenmaskierungsprozessen wie Randomisierung oder Tokenisierung eine Herausforderung darstellen.

Semantische Integrität

Die generierten gefälschten Werte müssen den Geschäftsregeln und Einschränkungen entsprechen, die mit verschiedenen Datentypen verbunden sind. Beispielsweise sollten Gehälter innerhalb einer bestimmten Spanne liegen und nationale Identifikationsnummern einem vorgegebenen Format folgen. Es ist nicht einfach, die semantische Integrität zu wahren, aber es stellt sicher, dass die maskierten Daten aussagekräftig und realistisch bleiben.

Einzigartigkeit der Daten

In Fällen, in denen die ursprünglichen Daten Eindeutigkeit erfordern, wie z. B. Mitarbeiter-ID-Nummern, muss die Datenmaskierungstechnik eindeutige Werte bereitstellen, um die ursprünglichen Daten zu ersetzen. Das Fehlen von Eindeutigkeit in Schlüsselbereichen kann zu potenziellen Konflikten oder Inkonsistenzen führen.

Integration in vorhandene Workflows

Es kann schwierig sein, Datenmaskierung in bestehende Workflows zu integrieren, insbesondere in der Anfangsphase der Implementierung. Für Mitarbeiter kann es zu Unannehmlichkeiten kommen, wenn sie sich an die neuen Prozesse und Technologien anpassen. Um eine nahtlose Integration und minimale Unterbrechungen zu gewährleisten, sollte sich Ihr Unternehmen auf sorgfältige Planung, die Zusammenarbeit mit Interessengruppen und die Berücksichtigung von Benutzeranliegen konzentrieren.

Wie kann AWS Ihre Anforderungen an Datenmaskierung unterstützen?

Es gibt viele Angebote von Amazon Web Services (AWS), die über integrierte Funktionen zur Datenmaskierung verfügen. Hier sind einige Beispiele:

Amazon Transcribe wandelt Sprache automatisch in Text um und kann vertrauliche Daten nach Bedarf maskieren.
Amazon Redshift nutzt SQL zur Analyse strukturierter und halbstrukturierter Daten in Data Warehouses, Betriebsdatenbanken und Data Lakes. Es unterstützt rollenbasierte Zugriffssteuerung, Sicherheit auf Zeilenebene, Sicherheit auf Spaltenebene und dynamische Datenmaskierungstechniken.
Amazon Simple Notification Service (Amazon SNS) ist ein Benachrichtigungsservice. Sie können damit Datenschutzrichtlinien definieren, mit denen vertrauliche Daten bei der Übertragung erkannt, maskiert und geschützt werden können.

Wir verfügen auch über vorhandene Implementierungsleitfäden für komplexe Datenmaskierungsanforderungen. Der Leitfaden zur KI-gestützten Maskierung von Gesundheitsdaten hilft Gesundheitsorganisationen, Gesundheitsdaten in Images oder Text zu identifizieren und zu maskieren. Diese Anleitung verwendet die folgenden Services:

Amazon Comprehend Medical erkennt Gesundheitsdaten in einem Textkörper
Amazon Rekognition identifiziert Text in einem Image
Amazon API Gateway und AWS Lambda bieten eine API-Schnittstelle für diese Funktionalität
AWS Identity und Access Management (IAM) autorisiert API-Anfragen

Sie können auch erwägen, aus einer von mehreren vorgefertigten Datenmaskierungslösungen im AWS Marketplace zu wählen.

Beginnen Sie mit Datenmaskierung in AWS, indem Sie noch heute ein Konto erstellen.

Was ist Datenmaskierung?