Publicado en: Aug 22, 2023

Amazon SageMaker Data Wrangler reduce, de semanas a minutos, el tiempo que se demora en agregar y preparar datos para machine learning (ML) en Amazon SageMaker Studio. SageMaker Data Wrangler le permite acceder a los datos de una amplia variedad de fuentes populares, como Amazon S3, Amazon Athena, Amazon Redshift, Amazon EMR, Snowflake y más de 50 fuentes de terceros. A partir de hoy, puede usar el control de acceso basado en roles con AWS Lake Formation en las conexiones EMR Hive y Presto para crear conjuntos de datos para ML en SageMaker Data Wrangler. 

Una vez que los administradores configuren el acceso basado en roles de EMR con Lake Formation y proporcionen acceso a los datos al rol de IAM utilizado en SageMaker Studio, usted podrá conectarse desde SageMaker Data Wrangler a EMR utilizando el mismo rol de IAM para autenticarse y autorizar con Lake Formation. Puede usar las conexiones EMR Hive y Presto para buscar datos en su lago de datos de S3 administrado por Lake Formation y crear un conjunto de datos para ML. De este modo, podrá comprender rápidamente la calidad de los datos, limpiarlos y crear características mediante la interfaz visual de SageMaker Data Wrangler y las más de 300 transformaciones de datos y análisis integradas respaldadas por Spark sin necesidad de escribir código. También puede entrenar e implementar el modelo con el piloto automático de SageMaker y poner en funcionamiento el proceso de preparación de datos en una canalización de entrenamiento, inferencia o ingeniería de características mediante la integración con SageMaker Pipeline, todo ello desde SageMaker Data Wrangler. 

SageMaker Data Wrangler es compatible con EMR y Lake Formation en todas las regiones que actualmente admite Data Wrangler. Para obtener más información, consulte esta entrada de blog y la documentación técnica de AWS.