Hunderttausende von Kunden entwickeln Data Lakes, die ohne Datenqualität zu „Datensümpfen“ führen können. Die Einrichtung der Datenqualität ist ein zeitaufwändiger und langwieriger Prozess. Sie müssen Datenqualitätsregeln manuell analysieren und erstellen und Code schreiben, der Sie warnt, wenn sich die Qualität verschlechtert. AWS Glue Data Quality reduziert diesen manuellen Qualitätsaufwand von Tagen auf Stunden. AWS Glue Data Quality berechnet automatisch Statistiken, empfiehlt Qualitätsregeln, überwacht und warnt Sie, wenn es feststellt, dass sich die Qualität verschlechtert hat. Somit wird die Identifizierung fehlender, veralteter oder fehlerhafter Daten zu einem optimierten Prozess, bevor sich dies auf Ihr Geschäft auswirken.

Einführung in AWS Glue Data Quality (0:29)

Schlüsselfunktionen

Automatische an Ihre Daten angepasste Regelempfehlungen

Der Einstieg in die Datenqualität kann sich als schwierig erweisen, da Sie Daten manuell analysieren müssen, um Qualitätsregeln zu erstellen. AWS Glue Data Quality berechnet automatisch die Statistiken für Ihre Datensätze. Es verwendet diese Statistiken, um eine Reihe von Qualitätsregeln zu empfehlen, die auf Aktualität, Genauigkeit und Integrität prüfen. Sie können bei Bedarf empfohlene Regeln anpassen, Regeln verwerfen oder neue Regeln hinzufügen. Wenn es Qualitätsprobleme feststellt, werden Sie von AWS Glue Data Quality gewarnt, damit Sie handeln können.

Datenqualität im Ruhezustand und in Pipelines erzielen

Ihre Daten ruhen in verschiedenen Repositorys und werden von einem Repository zum anderen verschoben. Die Überwachung der Datenqualität ist sowohl nach dem Empfang als auch während der Übertragung wichtig. Die Regeln für AWS Glue Data Quality können sowohl auf in Ihren Datensätzen ruhenden Daten und Data Lakes als auch auf ganze Datenpipelines angewendet werden, in denen Daten in Bewegung sind. Für Datenpipelines, die auf AWS Glue Studio entwickelt wurden, können Sie eine Transformation anwenden, um die Qualität für die gesamte Pipeline auszuwerten. Sie können auch Regeln definieren, um die Pipeline anzuhalten, wenn sich die Qualität verschlechtert, wodurch verhindert wird, dass schlechte Daten in Ihren Data Lakes landen.

Serverless, kostengünstige Datenqualität im Petabyte-Bereich ohne Bindung

AWS Glue ist Serverles, sodass Sie skalieren können, ohne die Infrastruktur verwalten zu müssen. Es lässt sich für jede Datengröße skalieren und bietet eine nutzungsbasierte Abrechnung, um die Agilität zu erhöhen und die Kosten zu senken. AWS Glue Data Quality verwendet Deequ, ein von Amazon entwickeltes Open-Source-Framework zur Verwaltung von Datensätzen im Petabyte-Bereich. Da es mit Open Source erstellt wurde, bietet AWS Glue Data Quality Flexibilität und Portabilität ohne Bindung.