Veröffentlicht am: Mar 30, 2021

Mit AWS Glue DataBrew können Sie jetzt Ausreißer in Daten aus Ihrem Data Lake, Data Warehouses und anderen JDBC-zugänglichen Datenquellen visuell erkennen. Sie können Ausreißer weiter behandeln, indem Sie sie ersetzen, entfernen, umskalieren oder markieren, indem Sie mathematische und algorithmische Methoden verwenden, wie z.B. z-score (um die Differenz zum Mittelwert zu finden und durch die Standardabweichung zu teilen), modifizierter z-score (um die Differenz zur absoluten Abweichung des Medians zu berechnen), Interquartilsbereiche (um Werte zwischen dem ersten Quartil und dem dritten Quartil zu berechnen) und eine oder mehrere Transformationen, wie z.B. das Erstellen einer Markierungsspalte, das Anwenden von Fensterfunktionen, oder wählen Sie aus über 250 weiteren Transformationen.  

Für Analyse- und Machine Learning-Anwendungsfälle enthalten Datensätze oft Ausreißer mit entweder wertvollen Informationen oder bedeutungslosen Fehlern, die durch Mess- und Aufzeichnungsfehler verursacht werden. Das Einbeziehen oder Ausschließen von Ausreißern in den Datensätzen kann sich direkt auf das Ergebnis der Analyse oder der Machine Learning-Modelle und die auf diesen Daten basierenden Entscheidungen auswirken. Wenn Sie mit kleinen Stichproben der Daten aus Ihrem Data Lake und Data Warehouses arbeiten, müssen Sie die Daten mehrfach im Code zerschneiden und würfeln, um alle Ausreißer in den Daten zu erkennen und zu behandeln, da es keine visuelle Möglichkeit gibt, sie zu betrachten. Mit DataBrew können Sie jetzt Ausreißer in Ihren Datensatzprofilen nicht nur visuell anzeigen, sondern auch angemessen behandeln, ohne Code schreiben zu müssen.

AWS Glue DataBrew ist ein visuelles Datenvorbereitungstool, mit dem Sie Daten mithilfe von mehr als 250 vorgefertigten Transformationen für die Datenvorbereitung ganz einfach bereinigen und normalisieren können, ohne Code schreiben zu müssen.  

Weitere Informationen erhalten Sie in diesem Video mit den ersten Schritten oder Sie verwenden einen Beispieldatensatz, um DataBrew kennenzulernen. Besuchen Sie zum Einstieg die AWS-Managementkonsole oder installieren Sie das DataBrew-Plugin in Ihrer Notebook-Umgebung und lesen Sie die DataBrew-Dokumentation.