Publié le: Dec 8, 2022
Amazon SageMaker Data Wrangler réduit le temps nécessaire à l'agrégation et à la préparation des données pour le machine learning (ML) de plusieurs semaines à quelques minutes dans Amazon SageMaker Studio. SageMaker Data Wrangler vous permet également de simplifier le processus de préparation des données et d'ingénierie des fonctionnalités, mais aussi d'effectuer toutes les étapes du flux de travail de préparation de données telles que la sélection, le nettoyage, l'exploration et la visualisation des données depuis une seule interface visuelle. À compter d'aujourd'hui, vous pouvez vous connecter à Amazon EMR Presto pour l'utiliser comme moteur de requêtes volumineux pour importer de très grands jeux de données et préparer des données pour le machine learning en quelques minutes dans la visualisation interactive Data Wrangler.
L'analyse, la transformation et la préparation de grandes quantités de données constituent une partie essentielle et également la plus chronophage du flux de travail de machine learning. Les scientifiques et les ingénieurs des données tirent parti d'Apache Spark, d'Apache Hive et de Presto exécutés sur Amazon EMR pour une préparation à grande échelle des données. À compter d'aujourd'hui, les clients peuvent désormais utiliser une interface visuelle pour détecter les clusters EMR existants qui exécutent un point de terminaison Presto à partir de Data Wrangler et s'y connecter. Ils peuvent parcourir la base de données, les tables et les schémas, créer des requêtes Presto pour sélectionner, prévisualiser et créer un jeu de données pour le machine learning. Ils peuvent ensuite utiliser l'interface visuelle de Data Wrangler pour analyser les données à l'aide du rapport Qualité des données et informations, nettoyer les données et créer des fonctionnalités pour le machine learning à l'aide de plus de 300 transformations intégrées basées sur Spark, sans avoir à créer de code Spark. Ils peuvent entraîner et déployer automatiquement des modèles de machine learning grâce à l'intégration à SageMaker Autopilot. Enfin, ils peuvent déployer leur solution à grand échelle pour traiter de très grands jeux de données avec des tâches de traitement distribuées, automatiser la préparation des données à l'aide de fonctionnalités de planification intégrées et exécuter la préparation des données dans les flux de travail de production à des fins d'entraînement ou d'inférence avec SageMaker Pipeline.
Data Wrangler prend en charge EMR Presto dans toutes les régions actuellement prises en charge par Data Wrangler sans frais supplémentaires. Pour en savoir plus, consultez cet article de blog et la documentation technique AWS.