Publicado en: Dec 8, 2022

Amazon SageMaker Data Wrangler reduce, de semanas a minutos, el tiempo que se demora en agregar y preparar datos para machine learning (ML) en Amazon SageMaker Studio. Con SageMaker Data Wrangler, es posible simplificar el proceso de preparación de datos e ingeniería de características, así como completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, limpieza, exploración y visualización de datos en una única interfaz visual. A partir de hoy, puede conectarse a Amazon EMR Presto como un gran motor de consulta para incorporar conjuntos de datos muy grandes y preparar los datos para ML en cuestión de minutos en la visualización interactiva de Data Wrangler.

Analizar, transformar y preparar grandes cantidades de datos es una parte fundamental y también la que consume más tiempo del flujo de trabajo de ML. Los científicos de datos y los ingenieros de datos utilizan Apache Spark, Apache Hive y Presto que se ejecutan en Amazon EMR para preparar datos a gran escala. A partir de hoy, los clientes pueden utilizar una interfaz visual para descubrir y conectarse a los clústeres de EMR existentes que ejecuten un punto de conexión de Presto desde Data Wrangler. Pueden explorar la base de datos, las tablas y el esquema, y crear consultas de Presto para seleccionar, previsualizar y crear un conjunto de datos para el ML. Luego, pueden usar la interfaz visual de Data Wrangler para analizar los datos mediante el informe de observaciones y calidad de los datos, limpiar los datos y crear funciones para el ML mediante más de 300 transformaciones integradas respaldadas por Spark sin necesidad de crear código de Spark. Pueden entrenar e implementar modelos de ML automáticamente mediante la integración con piloto automático de SageMaker. Por último, pueden escalar para procesar conjuntos de datos muy grandes con tareas de procesamiento distribuidas, automatizar la preparación de datos mediante la capacidad de programación integrada y ejecutar la preparación de datos en los flujos de trabajo de producción para su entrenamiento o inferencia con las canalizaciones de SageMaker.

Data Wrangler es compatible con EMR Presto en todas las regiones actualmente compatibles con Data Wrangler sin costo adicional. Para obtener más información, consulte estapublicación del blog y la documentación técnica de AWS.