Publicado en: Mar 10, 2023
Amazon SageMaker Data Wrangler reduce, de semanas a minutos, el tiempo que se demora en agregar y preparar datos para machine learning (ML) en Amazon SageMaker Studio. Data Wrangler le permite acceder a datos de una amplia variedad de fuentes conocidas (Amazon S3, Amazon Athena, Amazon Redshift, Amazon EMR Presto, Snowflake) y más de 40 fuentes de terceros. A partir de hoy, puede conectarse a Amazon EMR Hive como un motor de consulta de macrodatos para incorporar conjuntos de datos muy grandes para el machine learning.
La agregación y preparación de grandes cantidades de datos es una parte fundamental del flujo de trabajo del machine learning (ML). Los científicos de datos y los ingenieros de datos utilizan Apache Spark, Apache Hive y Presto que se ejecutan en Amazon EMR para procesar datos a gran escala. A partir de hoy, los clientes pueden utilizar la interfaz visual de Data Wrangler para descubrir y conectarse a los clústeres de EMR existentes que ejecutan un punto de conexión de Hive. Pueden explorar la base de datos, las tablas y el esquema, y crear consultas en Hive para seleccionar, previsualizar y crear un conjunto de datos mediante el explorador SQL de Data Wrangler. Luego, pueden analizar visualmente los datos y crear características de machine learning sin necesidad de escribir ningún código gracias a más de 300 análisis y transformaciones integrados respaldados por Spark. Los clientes también pueden entrenar e implementar el modelo con el Piloto automático de SageMaker, programar tareas u operacionalizar la preparación de datos en una interfaz visual de la canalización de SageMaker desde Data Wrangler.
Data Wrangler es compatible con EMR Hive en todas las regiones que actualmente admiten Data Wrangler. Para obtener más información, consulte esta publicación del blog y la documentación técnica de AWS.