Publié le: Jun 30, 2021

Lorsque vous préparez vos données, AWS Glue DataBrew ajoute la possibilité d'identifier et de marquer automatiquement les types de données avancés des colonnes. Cela facilite la standardisation de colonnes contenant des données de types : numéro de sécurité sociale (SSN), adresse e-mail, numéro de téléphone, sexe, carte de crédit, URL, adresse IP, date et heure, devise, code postal, pays, région, État et ville. Qui plus est, DataBrew marque visuellement les colonnes contenant des informations personnellement identifiables (PII), ce qui vous permet de rechercher aisément toutes les colonnes contenant des données de ce type dans votre jeu de données et d'appliquer des transformations. En savoir plus sur tous les types de données avancés pris en charge.

Pour affecter des colonnes avec un type de données avancé, il vous suffit de cliquer sur la colonne. DataBrew identifiera automatiquement le type de données, générera des statistiques de validité des données et proposera des recommandations pour la standardisation des données de la colonne. Après l’identification, vous pouvez utiliser les plus de 250 transformations intégrées de DataBrew, telles que la suppression de valeurs non valides, le remplacement de valeurs manquantes et l'extraction de valeurs personnalisées, pour préparer aisément vos données sans écrire de code. 

Pour démarrer, consultez la console de gestion AWS ou installez le plugin DataBrew dans votre environnement de bloc-notes