Was ist ein Datenkatalog?

Ein Datenkatalog ist eine Bestandsaufnahme aller Daten, die ein Unternehmen sammelt und verarbeitet. Gesetzliche Vorschriften verpflichten Unternehmen dazu, ihre Daten von der Erfassung bis zum Verbrauch jederzeit zu sichern und zu schützen. Ein Datenkatalog organisiert und klassifiziert die Daten, um Governance und Datenerkennung zu unterstützen. Es erleichtert die betriebliche Effizienz durch die gemeinsame Nutzung von Kontexten, da jeder schnell verstehen kann, warum und wie ein bestimmter Datensatz innerhalb einer Organisation verwendet wird.

Was sind die Vorteile eines Datenkatalogs?

Ein Datenkatalog ist ein organisatorisches Hilfsmittel, das die Suche nach Daten und die Identifizierung ihrer Verwendungszwecke erleichtert. Im Folgenden werden einige Vorteile genannt.

Schnelle Erkennung von Vermögenswerten

Ein Datenkatalog vereinfacht die Identifizierung von Daten und trägt dazu bei, die Produktivität der Mitarbeiter zu erhöhen. Sie können dann mithilfe von beschreibenden Tags nach Daten suchen, um schnell verwandte Daten zu finden und gleichzeitig den Kontext und Zweck jedes Datensatzes zu verstehen. Er bietet einen Überblick darüber, woher die Daten kommen, wie sie sich durch die Systeme bewegen und wie sie umgewandelt werden.  Datenanalysten können ihre Analysen oft ohne großen IT-Einsatz durchführen, was zu schnelleren Erkenntnissen führt.

Verbesserte Datenqualität

Für Datenkataloge sind mehrere Felder erforderlich, die von den Mitarbeitern ausgefüllt werden müssen, wenn ein Unternehmen neue Daten aufnimmt. Wenn die Benutzer auf den Katalog zugreifen, können sie sich über die Herkunft der Daten, die Umwandlungsprozesse und die Bearbeitungsdaten informieren und so sicherer mit den Informationen umgehen. Ein hoher Grad an Vollständigkeit trägt dazu bei, die Datenverwaltung zu erleichtern und die Datenqualität zu verbessern. Unternehmen können auch die Generierung dieser Datenkatalog-Metadaten automatisieren, um mit weniger Aufwand umfassende Datenkataloge zu erstellen. 

Erhöhte Effizienz

Ein Datenkatalog fördert die Konsistenz bei der Benennung, den Definitionen und den Metriken und stellt sicher, dass die verschiedenen Teams innerhalb eines Unternehmens ihre Daten einheitlich verstehen und nutzen. Durch den Einblick in alle Datenbestände können Unternehmen die Datenredundanz reduzieren und so sicherstellen, dass keine doppelten Anstrengungen unternommen und die Speicherkosten minimiert werden. Die Produktivitätsgewinne, die Datenwissenschaftler erzielen, tragen auch zur Senkung der Gesamtkosten bei.

Erweiterte Sicherheit

Die Datenschutzbestimmungen verlangen von Unternehmen, dass sie wissen, wo sich personenbezogene Daten befinden und wer auf sie zugegriffen hat. Ein Datenkatalog kann dabei helfen, den korrekten Umgang mit sensiblen Daten und den angemessenen Zugang sicherzustellen. Unternehmen können nachverfolgen, woher ihre Daten stammen, wer auf sie zugreift und wie sie verwendet werden, und so die Einhaltung gesetzlicher Vorschriften verbessern. 

Was sind die Anwendungsfälle für einen Datenkatalog?

Unternehmen können Datenkataloge nutzen, um ihre Speicherung und ihr Datenmanagement zu rationalisieren. Im Folgenden werden einige Anwendungsfälle für einen Datenkatalog aufgeführt.

Self-Service-Analysen

Ein Datenkatalog beschreibt detailliert, was die Daten enthalten und wofür ein Unternehmen sie verwendet. Sie ermöglicht es Unternehmen auch, viele ähnliche Daten zu unterscheiden und alle Prozesse im Zusammenhang mit dem Abruf und der Nutzung von Daten zu beschleunigen - insbesondere in Unternehmensumgebungen. Dank dieser verbesserten Transparenz können die Benutzer schnell feststellen, welche Daten sie betrachten und alle erforderlichen Informationen an einem Ort finden. Sie können Self-Service-Analyse-Workflows für technisch nicht versierte Datenanwender erstellen, selbst bei großen Datenmengen im Speicher.

Wissensaustausch

Zusammenarbeit ist der Schlüssel zur Gewinnung verwertbarer Erkenntnisse aus Daten. Ein Datenkatalog fördert eine kollaborative Umgebung, indem er es den Nutzern ermöglicht, Datensätze zu kommentieren, zu bewerten und zu überprüfen. Indem sie ihre Erfahrungen und ihr Wissen über bestimmte Datensätze austauschen, können die Benutzer zusammenarbeiten, um Risiken zu verringern und die Analysen im gesamten Unternehmen zu beschleunigen.

Analyse der Datenabfolge

Zu verstehen, woher die Daten stammen und wie sie die verschiedenen Systeme durchlaufen, ist entscheidend für die Behebung von Datenproblemen, die Durchführung von Auswirkungsanalysen oder die Einhaltung von Normen. Ein Datenkatalog bietet Einblick in die Datenherkunft und vermittelt den Benutzern ein klares Bild von der Reise der Daten von der Quelle bis zum endgültigen Ziel. Unternehmen können interne Taxonomiedokumente erstellen, die es allen Mitarbeitern ermöglichen, die korrekten Bezeichnungen für alle Datenbestände zu verstehen. Ein Referenzdokument oder -blatt in einem Datenkatalog erhöht die Datenkohärenz im gesamten Unternehmen.

Welche Informationen enthält ein Datenkatalog?

Datenkataloge enthalten Metadaten, die Ihren Bestand an Datenbeständen beschreiben und zusätzliche Informationen über den Inhalt der Daten liefern. Mit Hilfe von Metadatenfeldern können Sie Daten schnell durchsuchen und Assets auffinden. Ein Datenkatalog kann eine Reihe von Metadaten enthalten, wie zum Beispiel die folgenden Beispiele.

Unternehmensmetadaten

Unternehmensmetadaten sind alle Informationen, die sich auf den Wert beziehen, den sie für ein Unternehmen haben. Sie könnten Informationen über die Verwendung der Daten in einem Unternehmen, Einzelheiten zur Einhaltung von Vorschriften und nützliche geschäftliche Zusammenhänge für andere Nutzer enthalten. Sie kann beispielsweise Anmerkungen zu Datenprojekten wie Vertraulichkeitsstufen, Beschreibungen, Standorte, Benutzer, Abteilungen und vieles mehr enthalten. Ein Unternehmen wird in der Regel die genauen Geschäftsdaten definieren, die es benötigt, und mehrere zugehörige Felder einbeziehen.

Technische Metadaten

Technische Metadaten beschreiben die Gesamtstruktur eines Datensatzes. Sie beschreiben die Struktur von Datenobjekten und gehen auf ihre Beziehungen, Verbindungen, Indizes, Zeilen, Spalten und Tabellenform ein. Diese Metadaten liefern den Datenexperten auch Informationen über die Prozesse, die die Daten durchlaufen müssen, z. B. die Umwandlung oder die Analyse. Die Benutzer verstehen schnell, wie ein Unternehmen Informationen organisiert und dargestellt hat. 

Operative Metadaten

Operative Metadaten geben Auskunft über die Herkunft der Daten und ihre Umwandlung, Aktualisierungen, Kardinalität und andere Prozesskennzeichen. Anhand der operativen Metadaten können Sie sehen, wie die Daten in Ihr Unternehmen gelangt sind, welche Umwandlung sie durchlaufen haben, und andere aktuelle Statusaktualisierungen vornehmen. Anhand der operativen Metadatenfelder können Sie sehen, wann die Benutzer die Daten zuletzt bearbeitet haben und wer die Berechtigung hat, die Daten zu bearbeiten.

Was sind die wichtigsten Features eines Datenkatalogs?

Moderne Datenkatalogplattformen nutzen verschiedene wichtige Features, um ihre Nutzung zu rationalisieren und die Effizienz zu steigern. 

Automatisierung

Die Automatisierung ermöglicht es Unternehmen, ihren Datenkatalog mit weniger Aufwand zu verwalten. Die Integrationsfunktionen ermöglichen es dem Katalog, automatisch Metadaten aus verschiedenen Quellen zu beziehen. Der Katalog bleibt aktuell, wenn neue Datenbestände hinzukommen oder bestehende aktualisiert werden. Einige fortschrittliche Systeme nutzen auch Machine Learning, um ihre Datenkategorisierungsprozesse im Laufe der Zeit zu verbessern und zu verfeinern. Automatisierungs-Features innerhalb eines Datenkatalogs erhöhen die Flexibilität trotz ständig wachsender Datenmengen.

Effiziente Suchoptionen

Die Features der Datenkatalogsuche gehen über die einfache Stichwortsuche hinaus und liefern Vorschläge. Sie enthalten auch Filter, so dass die Nutzer die Daten anhand verschiedener Kriterien finden können. Die Beutzererfahrung ist vergleichbar mit der moderner Suchmaschinen, die relevante, geordnete und schnell zugängliche Ergebnisse liefern. Ein effizienter Datenabruf spart Zeit und fördert gleichzeitig die Entdeckung und Erkundung von Daten. 

Universelles Glossar

Ein universelles Glossar bietet unternehmensweit standardisierte Definitionen für Begriffe und Messgrößen. Es stellt sicher, dass alle Metadatenbegriffe eine einzige, klare Definition haben. Wenn die Benutzer im Katalog auf einen Begriff stoßen, können sie dessen Bedeutung im Glossar nachschlagen, so dass ein einheitliches Verständnis und eine einheitliche Verwendung gewährleistet sind. Dies ist besonders wichtig für die Wahrung der Datenintegrität und die Förderung einer klaren Kommunikation zwischen verschiedenen Teams.

Was ist der Unterschied zwischen Daten-Governance und einem Datenkatalog?

Daten-Governance ist eine Methodik, die sicherstellt, dass die Daten in einem ordnungsgemäßen Zustand sind, um Geschäftsinitiativen und -abläufe zu unterstützen. ​Die richtige Governance zu etablieren bedeutet, ein Gleichgewicht zwischen Datenzugriff und -kontrolle herzustellen und den Menschen Vertrauen in die Daten zu geben, während sie gleichzeitig zum Experimentieren ermutigt werden. Sie bietet einen Rahmen, den die Menschen bei der Nutzung von Unternehmensdaten und -technologien befolgen können. Daten-Governance ist nützlich, um eine hohe Datenqualität und eine angemessene Nutzung unter Einhaltung der gesetzlichen Bestimmungen zu gewährleisten.

Datenkataloge sind eine Technologie zur Umsetzung von Daten-Governance-Richtlinien. Daten-Governance definiert Datenverwendungsrichtlinien, während Datenkataloge diese durchsetzen. Diese Kataloge ermöglichen es den Unternehmen, ihre Daten-Governance besser im Griff zu haben. 

Wie kann AWS Ihre Anforderungen an den Datenkatalog unterstützen?

AWS Glue ist ein Serverless-Datenintegrationsdienst, der das Erkennen, Aufbereiten, Verschieben und Integrieren von Daten aus verschiedenen Quellen für Datenanalyse, Machine Learning (ML) und Anwendungsentwicklung erleichtert. AWS-Glue-Datenkatalog ist ein zentrales Repository zum Speichern von strukturellen und betrieblichen Metadaten für alle Ihre Datenbestände. Sie können die Tabellendefinition und den physischen Speicherort eines bestimmten Datensatzes speichern, geschäftsrelevante Attribute hinzufügen und verfolgen, wie sich diese Daten im Laufe der Zeit verändert haben.

Der Datenkatalog lässt sich auch in Amazon Athena, Amazon EMR und Amazon Redshift Spectrum integrieren. Sobald Sie Ihre Tabellendefinitionen zum Datenkatalog hinzugefügt haben, können Sie eine gemeinsame Sicht auf Ihre Daten zwischen diesen Diensten haben.

AWS Glue bietet zahlreiche Möglichkeiten, Metadaten in den Data Catalog einzupflegen. Beispielsweise können Sie:

  • Richten Sie AWS-Glue-Crawler ein, um verschiedene Datenspeicher zu scannen und automatisch Schemata und Partitionsstrukturen abzuleiten und den Datenkatalog mit entsprechenden Tabellendefinitionen und Statistiken zu füllen.
  • Planen Sie die regelmäßige Ausführung von Crawlern, damit Ihre Metadaten immer auf dem neuesten Stand sind und mit den zugrunde liegenden Daten synchronisiert werden. 
  • Fügen Sie Tabellendetails über die AWS-Glue-Konsole oder durch Aufrufen der API hinzu oder aktualisieren diese. 

Beginnen Sie mit Datenkatalogen in AWS, indem Sie noch heute ein kostenloses Konto einrichten.

Nächste Schritte mit AWS

Zusätzliche produktbezogene Ressourcen ansehen
Erfahren Sie mehr über Verwaltungs- und Governance-Services 
Registrieren Sie sich für ein kostenloses Konto

Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.

Registrieren 
Mit der Entwicklung in der Konsole starten

Starten Sie mit der Entwicklung in der AWS-Managementkonsole.

Anmelden