Veröffentlicht am: Jun 6, 2023

AWS kündigt die allgemeine Verfügbarkeit von AWS Glue Data Quality an, einer Funktion zur automatischen Bewertung und Überwachung der Qualität von Data Lakes und Datenpipelines. AWS Glue ist ein skalierbarer Serverless-Service für Datenintegration und ETL (Extrahieren, Transformieren und Laden), der zum vereinfachten Erkennen, Aufbereiten, Verschieben und Integrieren von Daten aus verschiedenen Quellen verwendet wird.

AWS Glue Data Quality trägt zu weniger manueller Datenqualitätsarbeit bei, indem Ihre Daten automatisch zwecks Sammlung von Datenstatistiken analysiert werden. Es verwendet das Open-Source-Programm Deequ, um Regeln auszuwerten und die Datenqualität von Data Lakes im Petabyte-Bereich zu messen und zu überwachen. Anschließend werden Regeln für die Datenqualität empfohlen, die den Einstieg erleichtern. Sie können empfohlene Regeln aktualisieren oder neue Regeln hinzufügen. Wenn sich die Datenqualität verschlechtert, können Sie Aktionen konfigurieren, um Benutzer zu warnen und die Grundursache des Problems zu ermitteln. Regeln und Aktionen zur Datenqualität können auch in AWS-Glue-Datenpipelines konfiguriert werden, um zu verhindern, dass „schlechte“ Daten in Data Lakes und Data Warehouses gelangen.

Im Zuge der allgemeinen Verfügbarkeit haben wir neue Features eingeführt, um bestimmte Datensätze zu identifizieren, die die Datenqualitätsprüfungen nicht bestanden haben, und neue Regeln hinzugefügt, die die Datenkonsistenz in verschiedenen Datensätzen überprüfen. Sie können jetzt die Datenqualität von Amazon-Redshift-, Apache-Iceberg-, Apache-HUDI- und Delta-Lake-Datensätzen überprüfen, die im AWS-Glue-Datenkatalog katalogisiert sind. Die Ergebnisse von AWS Glue Data Quality werden jetzt in Amazon EventBridge veröffentlicht, wodurch Benutzer auf einfachere Weise benachrichtigt und Datenqualitätsergebnisse in andere Anwendungen integriert werden. Diese Features helfen Ihnen dabei, robuste Datenqualitätsprüfungen für verschiedene Datensätze durchzuführen und Probleme zu identifizieren, die korrigiert werden müssen.

AWS Glue Data Quality ist in allen AWS-Regionen allgemein verfügbar, in denen AWS Glue verfügbar ist.

Weitere Informationen finden Sie unter AWS Glue Data Quality.