Veröffentlicht am: Feb 11, 2021
Beim Ausführen von Profilaufträgen in AWS Glue DataBrew zum automatischen Generieren von mehr als 40 Datenqualitätsstatistiken wie Kardinalität auf Spaltenebene, numerische Korrelationen, eindeutige Werte, Standardabweichung und andere Statistiken können Sie jetzt die Größe des zu analysierenden Datensatzes konfigurieren. Damit können Sie Ihr Profil so anpassen, dass es auf x% des Datensatzes für wirklich große Datensätze läuft oder sich auf eine Unterstichprobe des Datensatzes für schnellere Ergebnisse konzentriert.
Sobald der Profilauftrag die Analyse abgeschlossen hat, zeigt DataBrew alle Statistiken in einem visuellen Profil-Dashboard auf der Konsole an und speichert die Rohstatistiken als JSON-Objekt in Ihrem Amazon S3-Bucket. Damit können Sie die Qualität der eingehenden Daten im Laufe der Zeit überwachen, unvorhergesehene oder unerwünschte Änderungen in den Daten erkennen und automatisierte Datenqualitätswarnungen innerhalb von Minuten statt Stunden, Tagen und Wochen einrichten , ohne Code schreiben zu müssen.
Besuchen Sie zum Einstieg die AWS-Managementkonsole oder installieren Sie das DataBrew-Plugin in Ihrer Notebook-Umgebung und lesen Sie die DataBrew-Dokumentation.