Veröffentlicht am: Oct 2, 2023
AWS kündigt die allgemeine Verfügbarkeit von AWS Glue Data Quality in den Regionen AWS GovCloud (USA-Ost und USA-West) an. Glue Data Quality misst und überwacht automatisch die Qualität der Daten in Data-Repositories und in AWS-Glue-ETL-Pipelines. AWS Glue ist ein skalierbarer Serverless-Service für Datenintegration und ETL (Extrahieren, Transformieren und Laden), der zum vereinfachten Erkennen, Aufbereiten, Verschieben und Integrieren von Daten aus verschiedenen Quellen verwendet wird.
AWS Glue Data Quality trägt zu weniger manueller Datenqualitätsarbeit bei, indem Ihre Daten automatisch zwecks Sammlung von Datenstatistiken analysiert werden. Es verwendet das Open-Source-Programm Deequ, um Regeln auszuwerten und die Datenqualität von Data Lakes im Petabyte-Bereich zu messen und zu überwachen. Anschließend werden Regeln für die Datenqualität empfohlen, die den Einstieg erleichtern. Sie können empfohlene Regeln aktualisieren oder neue Regeln hinzufügen. Wenn sich die Datenqualität verschlechtert, können Sie Aktionen konfigurieren, um Benutzer zu warnen und die Grundursache des Problems zu ermitteln. Regeln und Aktionen zur Datenqualität können auch in AWS-Glue-Datenpipelines konfiguriert werden, um zu verhindern, dass „schlechte“ Daten in Data Lakes und Data Warehouses gelangen.
Mit dieser allgemeinen Verfügbarkeit können Kunden jetzt die Datenqualität in den Regionen AWS GovCloud (USA) verwalten. Weitere Informationen finden Sie unter AWS Glue Data Quality.