Veröffentlicht am: Aug 9, 2022
Wir freuen uns, erweiterte Fähigkeiten für die Datenvorbereitung und -analyse in Amazon SageMaker Canvas ankündigen zu können, darunter das Ersetzen fehlender Werte, das Ersetzen von Ausreißern und die Flexibilität, verschiedene Stichprobenumfänge für Ihre Datensätze wählen zu können. Amazon SageMaker Canvas ist eine visuelle Point-and-Click-Oberfläche, mit der Geschäftsanalysten selbst genaue ML-Vorhersagen erstellen können – ohne Erfahrung mit Machine Learning (ML) zu haben oder eine einzige Zeile Code schreiben zu müssen. Mit SageMaker Canvas ist es einfach, auf Daten aus verschiedenen Quellen zuzugreifen und diese zu kombinieren, Daten automatisch zu bereinigen und ML-Modelle zu entwickeln, um mit wenigen Klicks präzise Vorhersagen zu treffen.
Ab heute ermöglicht es Ihnen SageMaker Canvas, fehlende Werte zu ersetzen, um Daten schneller vorzubereiten, Ausreißer in Ihren Daten zu ersetzen, um genauere ML-Modelle zu entwickeln, und bietet Ihnen außerdem die Flexibilität, die Größe der Datensatzstichprobe zu wählen, um die Datenanalyse zu beschleunigen.
Ersetzen fehlender Werte: Fehlende Werte treten häufig in Datensätzen auf und können die Genauigkeit von ML-Modellen beeinträchtigen. Diese neue Fähigkeit in SageMaker Canvas hilft Ihnen, fehlende Werte in Ihren Daten mit benutzerdefinierten Werten zu ersetzen (auch als Ersetzen mit Mittelwert oder Median bezeichnet) und die Daten schneller vorzubereiten, während Ihr Datensatz intakt gehalten wird. Beispielsweise können Sie fehlende Werte in Zahlenspalten mit dem Mittelwert oder Median Ihrer Daten oder einem benutzerdefinierten Wert ersetzen. Das stellt sicher, dass die Daten vor der Entwicklung von ML-Modellen bereit sind.
Ersetzen von Ausreißern: Ausreißer oder seltene Werte in Ihrem Datenbereich können bei der Entwicklung von ML-Modellen zu einer großen Varianz oder einer Verzerrung führen. SageMaker Canvas ermöglicht Ihnen jetzt die Erkennung von Ausreißern in Zahlenspalten und ersetzt sie mit Werten innerhalb eines bestimmten Bereichs. Sie können entweder die Standardabweichung oder einen eigenen Bereich wählen und Ausreißer mit Mindest- und Höchstwerten innerhalb dieses Bereichs ersetzen.
Auswahl der Größe für Datensatzstichproben: SageMaker Canvas ermöglicht Ihnen jetzt, die Größe Ihrer Datensatzstichprobe zu wählen, damit Sie Ihre Daten besser analysieren können. Die Stichprobennahme ist eine statistische Technik zur Ermittlung von Mustern und Trends in einem großen Datensatz, indem mit einer kleinen und handhabbaren Datenmenge gearbeitet wird, während die Genauigkeit der Datenanalyse zur Entwicklung von ML-Modellen gewahrt bleibt. SageMaker Canvas verwendet die zufällige Stichprobenmethode, die schnellere Datenerkenntnisse ermöglicht. Standardmäßig verwendet Canvas eine Stichprobengröße von 20.000 Zeilen in Ihrem Datensatz. Sie können nun abhängig von der Größe Ihres Datensatzes zwischen 500 und 40.000 Zeilen für die Stichprobendaten wählen und haben so mehr Flexibilität und Kontrolle.
Die neuen Fähigkeiten ergänzen die Datenvorbereitungsfähigkeiten und fortschrittlichen Datentransformationen, die von SageMaker Canvas unterstützt werden. Um mehr zu erfahren und einzusteigen, lesen Sie die Dokumentation und Produktseite.