Publié le: Nov 30, 2022
Amazon SageMaker Data Wrangler réduit le temps nécessaire pour regrouper et préparer les données pour le ML de plusieurs semaines à quelques minutes. Avec Data Wrangler, vous pouvez également simplifier le processus de préparation des données et d'ingénierie des fonctionnalités, mais aussi effectuer toutes les étapes du flux de travail de préparation de données telles que la sélection, la visualisation, le nettoyage, et la préparation des données depuis une interface visuelle à faible code. De nombreux professionnels du ML souhaitent explorer les jeux de données directement dans les blocs-notes pour repérer les problèmes potentiels de qualité des données comme des informations manquantes, des valeurs extrêmes, des jeux de données asymétriques ou des biais afin de pouvoir corriger ces problèmes pour préparer des données pour entraîner des modèles ML plus rapidement. Les professionnels du ML peuvent passer des semaines à écrire du code passe-partout pour visualiser et examiner différents éléments de leur jeu de données pour identifier les problèmes potentiels et y remédier.
À compter d'aujourd'hui, Data Wrangler propose une fonctionnalité de préparation des données intégrée aux blocs-notes Amazon SageMaker Studio qui permet aux professionnels du ML d'examiner visuellement les caractéristiques des données, d'identifier les problèmes de qualité des données et d'y remédier en quelques clics seulement directement dans les blocs-notes. Lorsque les utilisateurs affichent un cadre de données (une représentation des données sous la forme d'un tableau) dans leurs blocs-notes, les blocs-notes SageMaker Studio génèrent automatiquement des graphiques pour aider les utilisateurs à comprendre leurs modèles de distribution des données, identifier les problèmes potentiels comme des données incorrectes, des données manquantes ou des valeurs aberrantes. Ils suggèrent également des transformations de données pour remédier à ces problèmes. La nouvelle fonctionnalité permet également aux utilisateurs d'identifier des problèmes de qualité au niveau des données de colonnes cibles qui affecteront les performances du modèle de ML comme des types de données déséquilibrées ou mélangées et suggère des transformations de données pour remédier à ces problèmes. Lorsque le professionnel du ML sélectionne une transformation de données, le bloc-notes SageMaker Studio génère les codes correspondants au sein du bloc-notes pour pouvoir appliquer la transformation de données à chaque exécution du bloc-notes.
Cette fonctionnalité est généralement disponible dans toutes les régions dans lesquelles les blocs-notes SageMaker Studio sont disponibles sans coût supplémentaire.
Pour démarrer, consultez les ressources suivantes :