Publié le: Apr 1, 2022
Amazon SageMaker Data Wrangler réduit le temps nécessaire à l'agrégation et à la préparation des données pour le machine learning (ML) de quelques semaines à quelques minutes dans Amazon SageMaker Studio, le premier environnement de développement entièrement intégré (IDE) pour le ML. SageMaker Data Wrangler vous permet de simplifier le processus de préparation des données et d'ingénierie des fonctions mais également d'effectuer toutes les étapes du flux de préparation de données telles que la sélection, le nettoyage, l'exploration et la visualisation des données depuis une seule interface visuelle. Vous pouvez importer des données à partir de plusieurs sources de données telles qu'Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift et Snowflake. À compter d'aujourd'hui, vous pouvez utiliser Databricks comme source de données dans Amazon SageMaker Data Wrangler afin de préparer aisément des données dans Databricks pour le machine learning. Le Partenaire AWS Databricks aide les organisations à préparer leurs données pour l'analytique, à favoriser la Science des données et les décisions orientées données dans l'ensemble de l'organisation, et à adopter rapidement le ML.
Avec Databricks comme source de données pour SageMaker Data Wrangler, vous pouvez désormais vous connecter rapidement et facilement à Databricks, interroger de manière interactive les données stockées dans Databricks à l'aide de SQL et prévisualiser les données avant de les importer. Vous pouvez également ajouter vos données stockées dans Databricks aux données stockées dans Amazon S3 ainsi qu'à celles interrogées depuis Amazon Athena, Amazon Redshift et Snowflake afin de créer le jeu de données idéal pour votre cas d'utilisation ML. Une fois les données importées, vous pouvez explorer et analyser vos données avec les visualisations intégrées de SageMaker Data Wrangler afin d'identifier les erreurs potentielles ainsi que les valeurs extrêmes. Vous pouvez rapidement nettoyer vos données et créer des fonctions avec plus de 300 transformations de données intégrées, y compris des transformations spécifiques au ML, telles que l'encodage one-hot et l'équilibrage des données, sans écrire une seule ligne de code. Vous pouvez également détecter les biais avec Amazon SageMaker Clarify, rechercher les fuites de cibles, effectuer une analyse de simulation avec un modèle rapide afin de comprendre l'importance des fonctions et des problèmes de qualité des données qui affecteront les modèles ML avant même leur entraînement et leur déploiement en production. Enfin, en quelques clics seulement, vous pouvez exporter les données traitées directement dans Amazon SageMaker Feature Store ou vers Amazon S3 afin d'entraîner des modèles ML avec SageMaker Autopilot ou SageMaker Training. Vous pouvez également exporter votre flux de préparation des données pour qu'il s'exécute sur des jeux de données plus volumineux sur la tâche de traitement SageMaker ou en tant qu'étape dans Amazon SageMaker Pipelines.
Pour en savoir plus sur l'intégration de Databricks avec SageMaker Data Wrangler, consultez notre blog ou la documentation AWS. Pour commencer l'utilisation de SageMaker Data Wrangler, consultez la documentation AWS ainsi que la page de tarification.