Publié le: Oct 17, 2022
Aujourd'hui, nous sommes heureux d'annoncer la prise en charge des transformations « refit » avec Amazon SageMaker Data Wrangler. Pour rendre les données utilisables par des algorithmes tels que XgBoost, les spécialistes des données doivent transformer les valeurs non numériques en valeurs numériques à l'aide de transformations comme un encodage de type « one-hot ». Les transformations comme l'encodage de type « one-hot » dépendent des données et sont donc fréquemment appelées transformations ajustées. Ces transformations doivent être mises à jour ou réajustées pour tenir compte des changements de données, car celles-ci continuent à évoluer dans le temps. En outre, lorsque vous travaillez sur un échantillon de données, les transformations doivent être mises à jour pour tenir compte des changements entre un échantillon et l'ensemble plus large de données. L'utilisation de transformations comme l'encodage de type « one-hot » génère des informations supplémentaires, qui doivent être suivies et capturées dans le pipeline de préparation des données. L'omission ou le suivi incorrect de ces informations peut entraîner des erreurs dans le processus de préparation des données. En l'absence de prise en charge des transformations de type « refit », de nombreux spécialistes des données ne disposaient pas d'un moyen simple de déterminer quand utiliser la version ajustée d'une transformation ou réajuster leur transformation en intégrant de nouvelles données. Les spécialistes des données ne disposaient pas non plus d'un moyen facile de générer des versions mises à jour de leurs pipelines de transformation lors de l'ajustement avec de nouveaux jeux de données.
Data Wrangler suit désormais les transformations ajustées dans les flux de données pour toutes les transformations applicables. Ces transformations ajustées peuvent maintenant être utilisées pour préparer plus facilement de nouvelles données si nécessaire. Les utilisateurs peuvent spécifier quand ils veulent réutiliser les transformations ou réajuster de nouvelles transformations en fonction de leurs données. La fonctionnalité « refit » est disponible à la fois dans l'interface visuelle de Data Wrangler lors du lancement d'une tâche de traitement Data Wrangler ainsi que dans le bloc-notes de création de la tâche. Il suffit de sélectionner « refit » sous « trained parameters » dans le flux de création de la tâche pour réajuster les transformations dans votre flux. Data Wrangler va également générer automatiquement un nouveau fichier de flux contenant les valeurs mises à jour pour les transformations « refit ».
Cette fonctionnalité est généralement disponible dans toutes les régions AWS actuellement prises en charge par Data Wrangler sans coût supplémentaire. Pour commencer à utiliser SageMaker Data Wrangler, lisez la documentation AWS.