Publié le: Mar 5, 2021

AWS Glue DataBrew ajoute quatre nouvelles transformations visuelles : le binning, l'asymétrie, la binarisation et la transposition, ce qui permet aux analystes et aux scientifiques des données d'exploiter ces transformations sans avoir à écrire de code.

Le binning est une technique de prétraitement des données utilisée pour réduire les effets des erreurs d'observation mineures et la transformation binning vous permet de regrouper des nombres de valeurs plus ou moins continues dans un nombre plus restreint de « classes ». Par exemple, si vous disposez de données sur un groupe de personnes, vous pouvez organiser leurs âges en un nombre plus restreint d'intervalles d'âge (par exemple, regrouper tous les cinq ans).  

L'asymétrie est une mesure de l'asymétrie de la distribution de probabilité d'une variable aléatoire à valeur réelle par rapport à sa moyenne. Grâce à la transformation par asymétrie, vous pouvez modifier la forme de la distribution et l'inclinaison des données.

La binarisation est le processus qui consiste à diviser les données en deux groupes et à attribuer une valeur sur deux à tous les membres du même groupe. Vous pouvez utiliser la transformation par binarisation en définissant un seuil t et en attribuant la valeur 0 à tous les points de données situés en dessous du seuil et la valeur 1 à ceux situés au-dessus. Pour prendre un exemple simple, la transformation de l'échelle de gris d'une image du spectre 0-255 à un spectre 0-1 est une binarisation. Cela rend les algorithmes de classification plus efficaces dans le cadre du machine learning.

La transposition vous permet de faire pivoter les données des colonnes aux lignes, ou vice versa. Avec la transformation par transposition dans DataBrew, vous pouvez créer des visualisations plus nettes en faisant pivoter les colonnes et les lignes.

AWS Glue DataBrew est un outil de préparation visuelle des données qui permet de nettoyer et de normaliser facilement les données à l'aide de plus de 250 transformations prédéfinies pour la préparation des données, sans avoir besoin d'écrire le moindre code. Pour démarrer, consultez la Console de gestion AWS ou installez le module d'extension DataBrew dans votre environnement de bloc-notes et reportez-vous à la documentation de DataBrew.