Publié le: Oct 21, 2022
Aujourd'hui, nous sommes heureux d'annoncer qu'il est désormais possible de prendre en charge de façon dynamique différents jeux de données stockés sur S3 en utilisant des paramètres dans Amazon SageMaker Data Wrangler. Amazon SageMaker Data Wrangler réduit le temps nécessaire à l'agrégation et à la préparation des données pour le machine learning (ML) de plusieurs semaines à quelques minutes. Data Wrangler vous permet de simplifier le processus de préparation des données et d'ingénierie des fonctionnalités, mais également d'effectuer toutes les étapes du flux de préparation de données telles que la sélection, le nettoyage, l'exploration et la visualisation des données depuis une seule interface visuelle. Auparavant, les clients n'avaient aucun moyen simple de créer des références dynamiques vers des jeux de données lorsqu'ils exécutaient des tâches de traitement Data Wrangler planifiées. Ils ne disposaient pas non plus de moyen simple de filtrer les fichiers à utiliser pour le traitement dans un compartiment S3. Enfin, ils ne pouvaient pas facilement changer de sources de données lors de l'exécution d'une tâche de traitement Data Wrangler depuis le flux de travail Create Job (Créer une tâche) ou depuis le bloc-notes de traitement Data Wrangler.
Grâce à la prise en charge des jeux de données paramétrés dans Data Wrangler, vous pouvez utiliser des paramètres pour spécifier quels jeux de données traiter avec votre flux Data Wrangler. Un paramètre est une variable que vous pouvez enregistrer dans votre flux Data Wrangler. Vous pouvez spécifier des paramètres de date et d'heure afin de faire référence à des jeux de données correspondant à une plage de dates et d'heures spécifique. Les paramètres de modèle vous permettent de spécifier une expression régulière en Python afin de trouver les noms de fichiers correspondant à un modèle spécifique. Les paramètres de chaîne et les paramètres numériques peuvent être utilisés pour trouver les noms de fichiers contenant une chaîne ou une valeur numérique spécifique. Vous pouvez accéder aux paramètres dans Data Wrangler en cliquant sur le nœud « + » du menu et en sélectionnant « Edit dataset » (Modifier le jeu de données). Surligner une partie du chemin S3 affiche le menu « Create custom parameter » (Créer un paramètre personnalisé), qui peut être utilisé pour ajouter facilement un nouveau paramètre. La liste complète des paramètres est accessible en cliquant sur l'icône « {{ }} » en regard du chemin S3.
Cette fonctionnalité est généralement disponible dans toutes les régions AWS actuellement prises en charge par Data Wrangler sans coût supplémentaire. Pour commencer à planifier vos tâches de traitement de données avec SageMaker Data Wrangler, lisez la documentation AWS.