Amazon DataZone: Datenerkennung automatisieren

Übersicht

Entfernen Sie die Zeit für die manuelle Eingabe von Datenattributen in den Datenkatalog, was ebenfalls zu potenziellen Fehlern führen kann. Generieren Sie den Geschäftskontext und empfehlen Sie Analysen für Datensätze, wodurch die Ergebnisse der Datenerfassung verbessert werden. Mehr, umfangreichere Daten im Geschäftsdatenkatalog verbessern auch das Sucherlebnis. Reduzieren Sie Ihre Zeit für die Suche und Nutzung von Daten von Wochen auf Tage.

Page Topics

Wichtigste Funktionen

Wichtigste Funktionen

Der Amazon-DataZone-Geschäftsdatenkatalog fungiert als föderiertes Organisationsregister, in dem technische Metadaten als Ressourcen veröffentlicht werden können und Sie einen erweiterten Geschäftskontext hinzufügen können. Sie können Daten mit Geschäftskontext für alle Ihre Benutzer sichtbar machen, damit sie Daten schnell und einfach finden, verstehen und ihnen vertrauen können.

Automatisieren Sie das Hinzufügen von Geschäftsbeschreibungen und Namen zu Daten, sodass Sie den Kontext leichter verstehen und sich nicht mit kryptischen technischen Namen herumschlagen müssen. Diese Automatisierung basiert auf großen Sprachmodellen (LLMs), um die Genauigkeit und Konsistenz zu erhöhen. 

Die facettierte Suche unterstützt den Geschäftsdatenkatalog und hilft Datenkonsumenten und -produzenten dabei, Datenbestände anhand vertrauter Strukturinformationen wie Tabellen- und Spaltennamen sowie Geschäftsbegriffen zu finden.

Generieren Sie für jeden Datensatz eine Liste der wertvollsten Spalten und der wahrscheinlichen Analyseanwendungen. 

Mit den Datenqualitätsstatistiken in Amazon DataZone können Datenkonsumenten Datenqualitätsmetriken aus AWS Glue Data Quality oder Systemen von Drittanbietern sehen. Datenkonsumenten können den Datenquellen, die sie für ihre Entscheidungen nutzen, vertrauen und haben einen Qualitätskontext, wenn sie nach Assets suchen. Produzenten und IT-Teams können auch APIs verwenden, um die Datenqualitätsstatistiken von Drittanbietersystemen in ein einheitliches Portal außerhalb der Konsole einzubinden. Datenproduzenten können die Ergebnisse von AWS Glue Data Quality nach einem bestimmten Zeitplan einbringen, um sicherzustellen, dass die Bewertungen aktuell sind, auch wenn sich die Daten ständig ändern.

Anwendungsfälle

Reduzieren Sie Ihre Zeit, um Erkenntnisse zu gewinnen, indem Sie die richtigen Daten im richtigen Kontext finden. Daten können nur dann vertrauenswürdig sein, wenn sie konsistent, genau, vollständig, aktuell und rückverfolgbar sind und eine transparente Datenqualitäts-Bewertung aufweisen. Bei verteilter Eigentümerschaft sorgt jede Abteilung oder das Analyseteam dafür, dass die Daten originalgetreu sind, sodass Datennutzer wissen, dass sie die richtigen Daten verwenden.

Erstellen Sie einen Geschäftsdatenkatalog, indem Sie Ihre Ressourcen crawlen und die technischen Metadaten (nicht die eigentlichen Daten) hinzufügen, um sie mit dem Geschäftskontext anzureichern. Der Geschäftskontext kann mit standardisierten Glossaren und Begriffen bereichert werden. Sie können auch zusätzliche Metadaten mit Metadatenformularen anpassen.

Die Verwendung der richtigen Daten erfordert das Verständnis des Datenkontextes. Amazon DataZone hilft dabei, diesen Kontext für alle Daten zu erstellen, die mit Glossaren und Metadatenformularen katalogisiert sind. Jetzt kann der Dateneigentümer so viele Informationen wie möglich teilen, um den Datenkontext festzulegen, in dem der Datenkonsument Daten finden, verstehen und dann abonnieren kann. Die Datenqualitäts-Bewertung hilft Datenverbrauchern zu verstehen, ob ein Datenbestand für den jeweiligen Zweck geeignet ist.

Videos

AWS re:Invent 2023 – Erstellen eines Geschäftskatalogs mit Amazon DataZone (21:37)
AWS re:Invent 2023 – Verständnis Ihrer Daten im Geschäftskontext (55:40)

Häufig gestellte Fragen

Welche Informationen werden im Amazon-DataZone-Geschäftsdatenkatalog verwendet?

Im Amazon DataZone Katalog für Geschäftsdaten liefern Geschäftsmetadaten Informationen, die von Geschäftsleuten verfasst oder verwendet werden, und geben den Unternehmensdaten einen Kontext. Dies könnte die folgenden Informationen beinhalten:

  • Eigenverantwortung: Moderne datenorientierte Organisationen verwenden einen verteilten Datenverwaltungsprozess, bei dem die Geschäftsbereiche (LOBs) für die Verwaltung ihrer eigenen Daten verantwortlich sind. In einem Katalog werden die Eigentumsverhältnisse erfasst, sodass interessierte Parteien im Rahmen ihrer Geschäftsaufgaben nach Daten suchen und Zugriff darauf beantragen können.
  • Klassifizierung: Die Datenermittlung ist eine wichtige Aufgabe, die Geschäftsmetadaten unterstützen können. Datenerkennung verwendet zentral definierte Unternehmens-Ontologien und Taxonomien, um Datenquellen zu klassifizieren, und hilft Ihnen, relevante Datenobjekte zu finden.
  • Beziehungen: Sie können den Amazon-DataZone-Geschäftsdatenkatalog verwenden, um Beziehungsinformationen als Metadaten hinzuzufügen. Wie bei einem technischen Datensatzschema zeigt der Geschäftsdatenkatalog Beziehungen zwischen Objekten im Katalog, z. B. zwischen Datenbanken, Datensätzen und ihren Spalten.
  • Schema: KI-Empfehlungen für Beschreibungen können das technische und geschäftliche Schema verwenden, um empfohlene Beschreibungen und Verwendungen für Daten zu generieren.

Was kann ich mit Amazon DataZone katalogisieren?

Amazon DataZone unterstützt Datenbestände, die direkt aus dem AWS-Glue-Datenkatalog und Amazon Redshift veröffentlicht wurden. Diese beiden Quellen können verwendet werden, um Daten an den folgenden Orten zu katalogisieren:

  • Amazon-Simple-Storage-Service-Data-Lakes (Amazon S3)
  • Viele der speziell von AWS entwickelten Datenbanken, wie Amazon Relational Database Service (Amazon RDS), werden über einen AWS-Glue-Crawler bereitgestellt
  • Über 100 Amazon-AppFlow-Konnektoren zur Einbindung von Daten aus Drittanbieteranwendungen wie Snowflake, Salesforce und Google Analytics