Publié le: Sep 22, 2022
Amazon SageMaker Data Wrangler réduit le temps nécessaire à l'agrégation et à la préparation des données pour le machine learning (ML) de quelques semaines à quelques minutes dans Amazon SageMaker Studio, le premier environnement de développement entièrement intégré (IDE) pour le ML. SageMaker Data Wrangler vous permet de simplifier le processus de préparation des données et d'ingénierie des fonctionnalités, mais également d'effectuer toutes les étapes du flux de préparation de données telles que la sélection, le nettoyage, l'exploration et la visualisation des données depuis une seule interface visuelle. Vous pouvez importer des données depuis plusieurs sources de données telles qu'Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Snowflake et 26 sources de données de requêtes fédérées prises en charge par Amazon Athena. À compter d'aujourd'hui, les clients qui importent des données depuis les sources de données Athena peuvent configurer l'emplacement des résultats de requêtes dans S3 et la durée de conservation des données afin de contrôler où et combien de temps Athena stocke les données intermédiaires.
Amazon Athena est un service de requêtes interactif qui facilite la navigation dans le catalogue de données Glue et l'analyse de données directe dans Amazon S3 et 26 sources de données de requêtes fédérées grâce au SQL standard. Data Wrangler prend en charge le groupe de travail Athena pour fournir un emplacement de résultats des requêtes dans S3 personnalisé. À compter d'aujourd'hui, vous pouvez spécifier un emplacement S3 personnalisé pour les résultats de requêtes Athena ou continuer à utiliser le compartiment par défaut existant dans Data Wrangler. Vous disposez désormais d'une durée de conservation des données par défaut de cinq jours pour les résultats de requêtes Athena afin de contrôler le coût de stockage. Vous pouvez modifier cette durée de conservation des données en fonction de vos besoins et de la ligne directrice en matière de sécurité des données de votre organisation. Après l'importation des données via Athena, vous pouvez utiliser l'interface visuelle de Data Wrangler pour joindre des données provenant de plusieurs sources, explorer et analyser vos données à l'aide du rapport Qualité et informations des données et d'autres visualisations intégrées pour identifier des erreurs potentielles et des valeurs extrêmes. Vous pouvez facilement nettoyer vos données et élaborer des fonctionnalités grâce à plus de 300 transformations de données intégrées. Vous pouvez créer une tâche pour traiter un jeu de données plus large ou lancer une tâche de formation SageMaker Autopilot directement depuis Data Wrangler pour trouver automatiquement le meilleur modèle en fonction de votre problème métier en utilisant les données préparées.
Ces fonctionnalités sont généralement disponibles dans toutes les régions AWS actuellement prises en charge par Data Wrangler sans coût supplémentaire. Pour commencer à utiliser SageMaker Data Wrangler, consultez le blog et la documentation AWS.