Publicado en: Nov 2, 2023

Ahora puede iniciar Amazon SageMaker Data Wrangler desde Amazon EMR Studio para preparar datos con poco código para el machine learning (ML). Amazon EMR es la solución de macrodatos en la nube para el procesamiento de datos a escala de petabytes, el análisis interactivo y el machine learning, que usa marcos de código abierto como Apache Spark, Apache Hive y Presto. Amazon SageMaker Data Wrangler reduce, de semanas a minutos, el tiempo que se tarda en agregar y preparar datos para machine learning (ML). La nueva integración proporciona una experiencia simplificada para lanzar SageMaker Data Wrangler desde EMR Studio y preparar los datos para el aprendizaje automático sin necesidad de escribir un código.

Analizar, transformar y preparar grandes cantidades de datos es una parte fundamental y también la que consume más tiempo del flujo de trabajo de ML. A partir de hoy, los clientes pueden iniciar SageMaker Data Wrangler desde EMR Studio para detectar clústeres de EMR existentes y conectarse a ellos. Luego, pueden utilizar la interfaz visual de Data Wrangler para analizar los datos mediante el informe de observaciones y calidad de los datos, limpiar los datos y crear funciones para el ML mediante más de 300 transformaciones respaldadas por Spark. Pueden escalar para procesar conjuntos de datos muy grandes con tareas de procesamiento distribuidas, automatizar la preparación de datos mediante la capacidad de programación integrada o integrar con la canalización de SageMaker para un flujo de trabajo de entrenamiento o inferencia integral. También pueden entrenar e implementar modelos de ML automáticamente mediante la interfaz visual con la integración del piloto automático de SageMaker de SageMaker Data Wrangler. 

La nueva integración está disponible en todas las regiones comerciales en las que están disponibles EMR y SageMaker Data Wrangler. Consulte la documentación técnica para obtener más información.