AWS Germany – Amazon Web Services in Deutschland

Nutzen Sie die Anomalieerkennung mit AWS Glue, um die Datenqualität zu verbessern (Vorschau)

Von Jeff Bar übersetzt durch Ivo Kammerath

Wir starten eine Vorschau einer neuen AWS Glue Data Quality Funktion, die dabei helfen soll, Ihre Datenqualität zu verbessern, indem maschinelles Lernen verwendet wird, um statistische Anomalien und ungewöhnliche Muster zu erkennen. Sie erhalten tiefe Einblicke in Datenqualitätsprobleme, Datenqualitätsbewertungen und Empfehlungen für Regeln, die Sie kontinuierlich zur Anomalieüberwachung verwenden können, alles ohne Code schreiben zu müssen.

Datenqualität zählt

AWS-Kunden bauen bereits Datenintegrations-Pipelines auf, um Daten zu extrahieren und zu transformieren. Sie richten Datenqualitätsregeln ein, um sicherzustellen, dass die daraus resultierenden Daten von hoher Qualität sind und für genaue Geschäftsentscheidungen verwendet werden können. In vielen Fällen bewerten diese Regeln die Daten anhand von Kriterien, die zu einem bestimmten Zeitpunkt ausgewählt und festgelegt wurden und den aktuellen Zustand des Unternehmens widerspiegeln. Wenn sich jedoch das Geschäftsumfeld ändert und sich die Eigenschaften der Daten verschieben, werden die Regeln nicht immer überprüft und aktualisiert.

Zum Beispiel könnte eine Regel festgelegt werden, um zu überprüfen, dass der Tagesumsatz für ein Startup-Unternehmen mindestens zehntausend Dollar beträgt. Wenn das Unternehmen erfolgreich ist und wächst, sollte die Regel von Zeit zu Zeit überprüft und aktualisiert werden, aber in der Praxis passiert dies selten. Infolgedessen wird bei einem unerwarteten Umsatzrückgang die veraltete Regel nicht ausgelöst und niemand ist glücklich.

Anomalie-Erkennung in Aktion

Um ungewöhnliche Muster zu erkennen und tiefere Einblicke in Daten zu erhalten, versuchen Organisationen, eigene adaptive Systeme zu erstellen oder kostspielige kommerzielle Lösungen zu nutzen, die spezifische technische Fähigkeiten und spezialisiertes Fachwissen erfordern.

Um diese weit verbreitete Herausforderung zu adressieren, nutzt Glue Data Quality jetzt maschinelles Lernen (ML).

Sobald aktiviert, nutzt dieser coole neue Zusatz zu Glue Data Quality Statistiken ML und dynamischen Schwellenwerte, wenn neue Daten eintreffen. Dadurch kann aus vergangenen Mustern gelernt werden und gleichzeitig Ausreißer und ungewöhnliche Datenmuster erkannt werden. Dieser Prozess erzeugt Beobachtungen und visualisiert Trends, sodass Sie schnell ein besseres Verständnis der Anomalie erhalten können.

Sie erhalten auch Regel-Empfehlungen im Rahmen der Beobachtungen und können diese ganz einfach schrittweise zu Ihren Daten-Pipelines hinzufügen. Regeln können eine Aktion wie z.B. das Stoppen Ihrer Daten-Pipelines erzwingen. In der Vergangenheit konnten Sie nur statische Regeln schreiben. Jetzt können Sie dynamische Regeln schreiben, die sich selbst anpassende Schwellenwerte haben, und Anomalieerkennungsregeln, welche wiederkehrende Muster erfassen und Abweichungen erkennen. Wenn Sie Regeln im Rahmen von Datenpipelines verwenden, können sie den Datenfluss stoppen, damit ein Datenexperte sie überprüfen, beheben und fortsetzen kann.

Um die Anomalie-Erkennung zu verwenden, füge ich einen Knoten „Datenqualität bewerten“ (Evaluate Data Quality) zu meinem Job hinzu:

Ich wähle den Knoten aus und klicke auf „Analyzer hinzufügen“ (Add analyzer), um eine Statistik und die Spalten auszuwählen:

Glue Data Quality lernt aus den Daten, um Muster zu erkennen, und generiert dann Beobachtungen, die auf der Registerkarte „Datenqualität“ (Data quality) angezeigt werden:

Und eine Visualisierung:

Nachdem ich die Beobachtungen überprüft habe, füge ich neue Regeln hinzu. Die erste legt adaptive Schwellenwerte fest, die überprüfen, ob die „Zeilenanzahl“ (RowCount) zwischen der kleinsten der letzten 10 Läufe und der größten der letzten 20 Läufe liegt. Die Zweite sucht nach ungewöhnlichen Mustern, z. B. einer abnormal hohen „Zeilenanzahl“ (RowCount) am Wochenende:

 

Nehmen Sie an der Vorschau teil

Diese neue Funktion ist in der Vorschau in den AWS Regionen US East (Ohio und N. Virginia), US West (Oregon), Asien-Pazifik (Tokio) und Europa (Irland) verfügbar.

Um mehr zu erfahren, lesen Sie Data Quality Anomalieerkennung.

Bleiben Sie dran für einen ausführlichen Blog-Beitrag, wenn dieses Feature veröffentlicht wird!

Jeff [Extern]

Über die Autoren

Jeff Barr ist der Chief Evangelist für AWS. Er startete diesen Blog im Jahr 2004 und schreibt seitdem nahezu ununterbrochen Beiträge.