Veröffentlicht am: Nov 30, 2022

AWS Glue kündigt die Vorversion von AWS Glue Data Quality an, einer neuen Funktion zur automatischen Bewertung und Überwachung der Qualität von Data Lake und Datenpipelines. AWS Glue ist ein skalierbarer Serverless-Datenintegrationsservice, der zum effizienteren Erkennen, Aufbereiten, Verschieben und Integrieren von Daten aus verschiedenen Quellen verwendet wird. Die Verwaltung der Datenqualität erfolgt manuell und ist zeitaufwändig. Du musst Regeln für die Datenqualität aufstellen und deine Daten in regelmäßigen Abständen anhand dieser Regeln validieren. Darüber hinaus musst du Code schreiben, um Warnmeldungen einzurichten, wenn sich die Qualität verschlechtert. Analysten müssen Daten manuell analysieren, Regeln aufstellen und dann Code schreiben, um diese Regeln umzusetzen. 

AWS Glue Data Quality analysiert deine Daten zur Erstellung von Datenstatistiken automatisch. Anschließend werden Regeln für die Datenqualität empfohlen, die den Einstieg erleichtern. Du kannst die empfohlenen Regeln aktualisieren oder neue Regeln hinzufügen, indem du die bereitgestellten Datenqualitätsregeln verwendest. Wenn sich die Datenqualität verschlechtert, kannst du Aktionen konfigurieren, um die Benutzer zu warnen. Datenqualitätsregeln und -aktionen können auch für ETL-Aufträge Extract, Transform, Load [ETL]) in Datenpipelines von AWS Glue konfiguriert werden. Mit diesen Richtlinien kann verhindert werden, dass „fehlerhafte“ Daten in Data Lakes und Data Warehouses gelangen. AWS Glue ist eine Serverless-Anwendung, d. h. es muss keine Infrastruktur verwaltet werden, und AWS Glue Data Quality verwendet Open-Source Deequ, um Regeln zu bewerten. AWS verwendet Deequ zur Bewertung und Überwachung der Datenqualität von Data Lakes im Petabyte-Bereich.  

AWS Glue Data Quality ist jetzt als Vorversion in den folgenden AWS-Regionen verfügbar: USA Ost (Ohio), USA Ost (Nord-Virginia), USA West (Oregon), Asien-Pazifik (Tokio) und Europa (Irland).

In der Dokumentation zu AWS Glue Data Quality finden Sie weitere Informationen zur Datenqualität von Daten im Ruhezustand und zur Datenqualität in Datenpipelines.