Publié le: Mar 10, 2023
Amazon SageMaker Data Wrangler réduit le temps nécessaire à l'agrégation et à la préparation des données pour le machine learning (ML) de plusieurs semaines à quelques minutes dans Amazon SageMaker Studio. Data Wrangler vous permet d'accéder à des données provenant d'un large éventail de sources populaires (Amazon S3, Amazon Athena, Amazon Redshift, Amazon EMR Presto, Snowflake) et de plus de 40 autres sources tierces. À compter d'aujourd'hui, vous pouvez vous connecter à Amazon EMR Hive en tant que moteur de requêtes big data afin d'apporter de très grands jeux de données pour le machine learning.
L'agrégation et la préparation de grandes quantités de données constituent une partie essentielle du flux de travail ML. Les scientifiques et les ingénieurs des données tirent parti d'Apache Spark, d'Apache Hive et de Presto exécutés sur Amazon EMR pour le traitement de données à grande échelle. À compter d'aujourd'hui, les clients peuvent désormais utiliser l'interface visuelle de Data Wrangler pour détecter les clusters EMR existants qui exécutent un point de terminaison Hive et s'y connecter. Ils peuvent parcourir la base de données, les tables et les schémas, créer des requêtes Hive pour sélectionner, prévisualiser et créer un jeu de données à l'aide de l'explorateur SQL de Data Wrangler. Ils peuvent ensuite analyser visuellement les données et créer des fonctionnalités ML sans écrire de code grâce à plus de 300 analyses et transformations intégrées soutenues par Spark. Les clients peuvent également entraîner et déployer un modèle avec SageMaker Autopilot, planifier une tâche ou rendre opérationnelle la préparation des données dans SageMaker Pipeline à partir de l'interface visuelle de Data Wrangler.
Data Wrangler prend en charge EMR Hive dans toutes les régions actuellement prises en charge par Data Wrangler. Pour en savoir plus, consultez cet article de blog et la documentation technique AWS.