Überspringen zum Hauptinhalt

Was ist Datenprofilerstellung?

Datenprofilerstellung ist der Prozess der Überprüfung der Daten einer Organisation, um die vorhandenen Informationen, ihre Speichermethoden und die Verbindungen zwischen den verschiedenen Datensätzen zu verstehen. Große Unternehmen sammeln Daten aus Hunderten oder Tausenden von Quellen, was zu Redundanzen, Inkonsistenzen und anderen Problemen hinsichtlich der Datengenauigkeit führen kann, die sich auf zukünftige Analytikprojekte auswirken. Die Datenprofilerstellung zielt darauf ab, die Datenqualität mithilfe von Automatisierungstools zu bewerten, die Inhalte und Nutzungsmuster identifizieren und melden. Dies ist ein entscheidender Vorverarbeitungsschritt, bevor Daten für Analytik und Business Intelligence genutzt werden können.

Was ist ein Datenprofil?

Ein Datenprofil ist ein Bericht, der detaillierte Einblicke in die Eigenschaften der Daten eines Unternehmens und mögliche Probleme hinsichtlich der Datenqualität bietet. Der Bericht konzentriert sich auf Metadaten und statistische Informationen und bietet Forschern einen umfassenden Überblick über den Inhalt der Daten.

Statistische Kennzahlen in einem Datenprofil helfen dabei, die Qualität der Daten zu bestimmen. Sie liefern Informationen über Minimal- und Maximalwerte, Frequenzdaten, Variation, Mittelwert und Modus, Perzentile und andere Einblicke in die Datenverteilung.

Der Abschnitt „Metadaten“ des Berichts gibt Aufschluss über die Art der Daten, die ein Unternehmen erfasst. Er umfasst strukturelle Aspekte, Fremdschlüsselanalysen zum Verständnis der Beziehungen zwischen Datensätzen und referenzielle Integritätsanalysen zur Validierung der Konsistenz zwischen verschiedenen Tabellen.

Warum ist Datenprofilerstellung wichtig?

Hier sind die Vorteile der Datenprofilerstellung.

Datenorganisation verbessern

Es ist nicht ungewöhnlich, dass große Unternehmen über mehrere Datensätze verfügen, die Informationen austauschen oder ähnliche Details enthalten. Mithilfe der Datenprofilerstellung können Unternehmen die Datenquelle identifizieren und feststellen, welche Felder sich überschneiden. Die Identifizierung von Redundanzen kann dazu beitragen, Daten zu bereinigen, die Organisation zu verbessern und bessere datengesteuerte Prozesse zu ermöglichen. Bessere Datenqualitätsstandards tragen dazu bei, alle datengesteuerten Prozesse in einem Unternehmen zu verbessern und gleichzeitig die mit Doppelarbeit verbundenen Betriebskosten zu senken.

Zusammenarbeit verbessern

Berichte zur Datenprofilerstellung generieren auch Informationen über Eigentum und Herkunft. Das Unternehmen versteht besser, wem welche Daten gehören und woher sie stammen. Dieses Wissen verbessert die Verantwortlichkeit und fördert eine effektivere Zusammenarbeit.

Workflows optimieren

Die Datenprofilerstellung umfasst automatisierte Prozesse, die die Identifizierung von Metadaten und die Verfolgung von Datenflüssen erleichtern. Ihre Datenforscher können weniger Zeit für langwierige manuelle Identifizierungsprozesse aufwenden und sich auf Aufgaben konzentrieren, die mehr technisches Fachwissen erfordern. Sie können auch Redundanzen oder Ungenauigkeiten entfernen und sicherstellen, dass alle verwendeten Daten einem höheren Standard entsprechen.

Zentralisierte Governance

Die Datenprofilerstellung zentralisiert Informationen über Daten und bietet eine zentrale Übersicht darüber, wo Daten gespeichert sind, wem sie gehören und welche Informationen sich überschneiden. Sie können Datensilos überwinden und den Datenzugriff verbessern. Ein ganzheitlicher Ansatz zur Dokumentation und Zuordnung von Daten stellt sicher, dass alle Mitarbeitenden Ihres Unternehmens ein besseres Verständnis ihrer Daten haben. Die Profilerstellung zeigt auch die Beziehung zwischen verschiedenen Datensätzen auf und verfolgt deren Weg durch das System, was für die Compliance von entscheidender Bedeutung ist.

Welche Anwendungsfälle gibt es für die Datenprofilerstellung?

Es gibt mehrere Anwendungsfälle für die Datenprofilerstellung.

Datenqualität

Wenn eine Datenoperation fehlschlägt, ist eine der einfachsten Methoden zur Ermittlung der Ursache die Erstellung eines Datenprofils. Ein Datenprofilbericht gibt an, ob die Daten unvollständig oder ungenau sind oder ein unerwartetes Zeichen enthalten, das den Fehler verursachen könnte. Dateningenieure können regelmäßig Datenprofile ausführen, um zu überprüfen, ob die Datenoperationen wie erwartet funktionieren, und um sicherzustellen, dass die Daten von hoher Qualität bleiben.

Datenmigration

Dateningenieure können anhand von Datenprofilberichten erkennen, wann Datensysteme unter Belastung stehen, und die notwendigen Anpassungen für eine höhere betriebliche Effizienz festlegen. Datenprofilberichte können als Grundlage für Entscheidungen zur Migration in die Cloud oder zu einer neuen Konfiguration dienen. Datenarchitekten können schnell die Informationen sammeln, die sie benötigen, um effizienter zu arbeiten und die Entwicklung von Daten-Pipelines zu optimieren.

Verwaltung von Stammdaten

Stammdaten sind die Kerndaten, die in einem Unternehmen verwendet werden und in der Regel Kunden, Produkte, Lieferanten oder andere wichtige Assets beschreiben. Anwendungen zur Verwaltung von Stammdaten (MDM) sind Softwarelösungen, mit denen Unternehmen die Konsistenz und Genauigkeit ihrer Stammdaten verwalten und aufrechterhalten können. Wenn Teams an Master-MDM-Anwendungen arbeiten, verwenden sie Datenprofile, um zu verstehen, welche Systeme in das Projekt integriert sind, welchen Anwendungsbereich sie haben und ob Dateninkonsistenzen vorliegen. Unternehmen können Datenprofilerstellung nutzen, um Probleme mit der Datenqualität, Nullwerte und Fehler so früh wie möglich zu erkennen, wodurch die Datenstandardisierung beschleunigt und MDM unterstützt wird.

Welche Arten der Datenprofilerstellung gibt es?

Es gibt verschiedene Arten der Datenprofilerstellung.

Strukturerkennung

Die Strukturerkennung ist eine Strategie, die sicherstellt, dass alle Daten in einer Datenbank konsistent sind. Sie überprüft alle Daten in einem bestimmten Feld, um sicherzustellen, dass sie das richtige Format haben und mit allen anderen Einträgen in diesem Feld konsistent strukturiert sind. Beispielsweise könnte die Strukturerkennung überprüfen, ob alle Handynummern in einer Liste die gleiche Anzahl von Ziffern haben, und alle Nummern markieren, bei denen Werte fehlen oder nicht kompatibel sind.

Inhaltsermittlung

Die Inhaltsermittlung ist eine Strategie, mit der nach systemischen Problemen in den Daten gesucht wird. Diese Fehler können falsche Werte oder falsch strukturierte einzelne Elemente innerhalb der Datenbank sein.

Beziehungsermittlung

Die Beziehungsermittlung verfolgt, wie verschiedene Datensätze miteinander in Verbindung stehen, welche mit anderen verwendet werden und wie sich Datensätze überschneiden. Bei dieser Art der Profilerstellung werden zunächst die Metadaten untersucht, um festzustellen, welche Beziehungen zwischen den Datensätzen am auffälligsten sind. Anschließend wird der Verbindungsfaden zwischen den Feldern enger, um eine ganzheitlichere Sicht auf die Beziehung zu erhalten.

Metadatenermittlung

Die Metadatenermittlung vergleicht Daten mit ihrer erwarteten Struktur, indem sie ihre Metadaten bewertet. Sie überprüft, ob sich die Daten wie erwartet verhalten und funktionieren. Wenn beispielsweise ein Feld für numerische Eingaben vorgesehen ist, aber alphabetische Antworten enthält, wird diese Diskrepanz bei der Metadatenerkennung als Fehler markiert und muss überprüft werden.

Feldbasierte Profilerstellung

Die feldbasierte Profilerstellung ist eine Strategie, bei der Datenqualitätsprobleme in einem einzelnen Feld identifiziert werden, indem überprüft wird, ob Datentyp und Eigenschaften übereinstimmen. Dieser Ansatz kann dabei helfen, Unstimmigkeiten in den Daten oder Ausreißer zu identifizieren, die die Daten verfälschen könnten.

Die Mehrfeld-Profilerstellung verwendet eine ähnliche Strategie, um die Beziehung zwischen zwei unterschiedlichen Feldern zu verstehen. Sie wird auch als feldübergreifende oder tabellenübergreifende Profilerstellung bezeichnet und überprüft, ob zwei Felder kompatibel sind, wenn ihre Daten voneinander abhängig sind. Beispielsweise könnte eine Überprüfung feststellen, ob der Bundesstaat mit der entsprechenden Postleitzahl in den Kundenadresslisten übereinstimmt.

Wie funktioniert Datenprofilerstellung?

Hier sind die wichtigsten Phasen, die die Datenprofilerstellung durchläuft.

Vorbereitung

Vorbereitung bedeutet, dass Sie festlegen, was Sie mit Ihrer Datenprofilerstellung erreichen möchten. Zunächst wird ermittelt, welche Form der Datenprofilerstellung für die Erreichung Ihrer Geschäftsziele am effektivsten ist. In dieser Phase identifizieren Sie auch alle Metadatenfelder, die Sie recherchieren möchten.

Datenerkennung

Als Nächstes identifizieren Sie, welche Daten sich in Ihrem System befinden. In dieser Phase sollen Informationen über die Struktur Ihrer Daten, deren Formate, Inhalte und mögliche Beziehungen zwischen Datensätzen gesammelt werden. In dieser Phase können Sie eine statistische Analyse durchführen, um bestimmte Datenmerkmale zu ermitteln.

Standardisierung

Durch die Standardisierung wird sichergestellt, dass Formate und Strukturen aller Ihrer Daten aufeinander abgestimmt sind. In dieser Phase werden Sie auch doppelte Daten eliminieren und Redundanzen entfernen, wodurch sich die Gesamtmenge der Daten reduziert, die im nächsten Schritt bereinigt werden müssen. Wenn Sie Geschäftsregeln anwenden müssen, um Ihre Daten zu standardisieren, findet hier die Validierung der Datenregeln statt.

Bereinigung

Die Bereinigung umfasst das Erkennen und Entfernen von Fehlern, die Anreicherung der Daten durch Verknüpfung mit anderen Datenquellen und die Behebung von Inkonsistenzen in den größeren Datensätzen.

Verbesserung

Schließlich konzentriert sich der Prozess der Datenprofilerstellung auf Verbesserungen, was die Überwachung der Datenqualität umfasst, um sicherzustellen, dass etwaige Probleme so schnell wie möglich behoben werden. Wenn Sie bestimmte Ziele in Bezug auf Daten-Governance oder Datenstrategie haben, können Sie in dieser Phase die Compliance sicherstellen und überprüfen, ob Ihre Daten korrekt erfasst und in Ihrem Unternehmen verteilt werden.

Welche gängigen Funktionen zur Datenprofilerstellung gibt es?

Hier sind die gängigen Tools und Funktionen zur Datenprofilerstellung.

Mathematische Funktionen

Mathematische Funktionen bei der Datenprofilerstellung sind Methoden zur Berechnung der Datenvollständigkeit und zur Identifizierung von Mustern, die in einem Datensatz vorhanden sind. So zum Beispiel Absolutwert, Potenz, Logarithmus usw.

Aggregatfunktionen

Aggregatfunktionen konzentrieren sich darauf, mehrere Felder aus Zeilen oder Spalten zu sammeln und dann einen einzelnen Wert zurückzugeben, um diese Informationen zusammenzufassen. Zum Beispiel Durchschnitt, Anzahl, Maximum, Varianz usw.

Textfunktionen

Textfunktionen sind Strategien zur Überprüfung alphabetischer Dateneinträge, die dabei helfen, die Datenqualität dieser Zeichenfolgenfelder zu bewerten und mit ihnen zu interagieren. Beispiele hierfür sind „find“, „char“, „trim“ usw.

Datums- und Uhrzeitfunktionen

Mit Datums- und Uhrzeitfunktionen können Forscher Daten überprüfen, die diese Felder enthalten. Sie können bestimmte Daten oder Uhrzeiten untersuchen, die Differenz zwischen Daten berechnen oder bestimmte Informationen aus diesen Feldern zurückgeben. Beispielsweise Zeitzonen konvertieren, Monat, Jahr und Tag eines bestimmten Datums zurückgeben usw.

Fensterfunktionen

Tools zur Datenprofilerstellung mit Fensterfunktionen ermöglichen es Ihnen, spaltenbasierte Informationen zu untersuchen. Sie können spaltenübergreifende Profilerstellung und Spaltenprofilerstellung über ein rollierendes Datenfenster durchführen. Beispielsweise rollierende Fensteranzahl, Maximalwert usw.                                                                                                                                                                                                                                                                                                  

Web-Funktionen

Webfunktionen arbeiten mit Zeichenfolgen, die XML-Inhalte enthalten. Für alle Daten, die mit einem Webservice verbunden sind, sind diese Funktionen effektive Ermittlungsinstrumente. Beispielsweise das Konvertieren von Datenfeldern oder das Extrahieren eines Werts aus einem JSON-Objekt.

Wie kann AWS Sie bei Ihren Anforderungen an die Datenprofilerstellung unterstützen?

Amazon SageMaker Catalog bietet Datenqualitätswerte, die Ihnen helfen, die verschiedenen Qualitätsmetriken wie Vollständigkeit, Aktualität und Genauigkeit Ihrer Datenquellen zu verstehen. Amazon SageMaker Catalog lässt sich in AWS Glue Data Quality integrieren und bietet APIs zur Integration von Datenqualitätsmetriken aus Datenqualitätslösungen von Drittanbietern. Datenbenutzer können sehen, wie sich die Datenqualitätsmetriken für ihre abonnierten Assets im Laufe der Zeit verändern. Um die Datenqualitätsregeln zu erstellen und auszuführen, können Sie das Datenqualitätstool Ihrer Wahl verwenden, beispielsweise AWS Glue Data Quality. Mit den Datenqualitätsmetriken in SageMaker Catalog können Datenverbraucher die Datenqualitätswerte für die Assets und Spalten visualisieren, was dazu beiträgt, Vertrauen in die Daten aufzubauen, die sie für Entscheidungen nutzen.

AWS Glue ist ein Serverless-Datenintegrations-Service, der den Prozess der Erkennung, Aufbereitung und Kombination von Daten für Analytik, KI/ML und Anwendungsentwicklung vereinfacht. Er bietet alle für die Datenintegration erforderlichen Funktionen, sodass Sie innerhalb von Minuten statt Monaten mit der Analyse Ihrer Daten beginnen und diese nutzen können.

AWS Glue DataBrew ist das visuelle Datenaufbereitungs-Feature in AWS Glue, das Funktionen zur Datenprofilerstellung bietet. Hierbei haben Sie die folgenden Möglichkeiten:

  • Wählen aus über 250 vorgefertigten Transformationen, um Datenaufbereitungsaufgaben zu automatisieren, ohne dass Sie Code schreiben müssen.
  • Filtern Sie automatisch Anomalien, konvertieren Sie Daten in Standardformate und korrigieren Sie ungültige Werte.
  • Verwenden Sie die aufbereiteten Daten sofort für Analytik- und KI/ML-Projekte.

Das manuelle Erstellen von Datenqualitätsregeln durch das Schreiben von Code zur Überwachung von Daten-Pipelines stellt eine große Herausforderung bei der Datenprofilerstellung dar. AWS Glue Data Quality ist ein weiteres Feature, das automatisch Statistiken berechnet, Datenqualitätsregeln empfiehlt, überwacht und Sie warnt, wenn Probleme erkannt werden.

Beginnen Sie mit der Datenprofilerstellung in AWS, indem Sie noch heute ein kostenloses Konto erstellen.