Publié le: Aug 22, 2023

Amazon SageMaker Data Wrangler réduit le temps nécessaire à l'agrégation et à la préparation des données pour le machine learning (ML) de plusieurs semaines à quelques minutes dans Amazon SageMaker Studio. SageMaker Data Wrangler vous permet d'accéder à des données provenant d'un large éventail de sources populaires (dont Amazon S3, Amazon Athena, Amazon Redshift, Amazon EMR, Snowflake) et de plus de 50 autres sources tierces. À compter d'aujourd'hui, vous pouvez utiliser le contrôle d'accès basé sur les rôles avec AWS Lake Formation dans les connexions EMR Hive et Presto pour créer des jeux de données pour le ML dans SageMaker Data Wrangler. 

Une fois que les administrateurs ont configuré l'accès basé sur les rôles EMR avec Lake Formation et fourni un accès aux données au rôle IAM utilisé dans SageMaker Sudio, vous pouvez vous connecter de SageMaker Data Wrangler à EMR en utilisant le même rôle IAM pour vous authentifier et autoriser auprès de Lake Formation. Vous pouvez utiliser les connexions EMR Hive et Presto pour parcourir les données de votre lac de données S3 géré par Lake Formation et créer un jeu de données pour ML. Vous pouvez ensuite rapidement comprendre la qualité des données, les nettoyer et créer des fonctionnalités à l'aide de l'interface visuelle de SageMaker Data Wrangler et de plus de 300 analyses et transformations de données intégrées soutenues par Spark sans écrire de code. Vous pouvez également entraîner et déployer un modèle avec SageMaker Autopilot, et opérationnaliser le processus de préparation des données dans le cadre d'une ingénierie des fonctionnalités, d'une formation ou d'un pipeline d’inférence en intégrant SageMaker Pipeline, le tout à partir de SageMaker Data Wrangler. 

SageMaker Data Wrangler prend en charge EMR et Lake Formation dans toutes les régions actuellement prises en charge par Data Wrangler. Pour en savoir plus, consultez cet article de blog et la documentation technique d’AWS.