Publicado en: Nov 30, 2022
Amazon SageMaker Data Wrangler reduce el tiempo de semanas a minutos que lleva agregar y preparar datos para ML con Data Wrangler, puede simplificar el proceso de preparación de datos e ingeniería de características, y completar cada paso del flujo de trabajo de preparación de datos, incluida la selección de datos, visualización, limpieza, y preparación desde una interfaz visual con poco código. Muchos profesionales de ML quieren explorar conjuntos de datos directamente en los cuadernos para detectar posibles problemas de calidad de los datos (por ejemplo, información faltante, valores extremos, conjuntos de datos distorsionados o sesgos) y poder corregir esos problemas y preparar los datos para entrenar el modelo de ML más rápido. Los profesionales de ML pueden pasar semanas escribiendo código repetitivo para visualizar y examinar diferentes partes de su conjunto de datos con el objetivo de identificar y solucionar posibles problemas.
A partir de hoy, Data Wrangler ofrece una capacidad de preparación de datos integrada en los cuadernos de Amazon SageMaker Studio, que permite a los profesionales de machine learning (ML) revisar visualmente las características de los datos, identificar inconvenientes y solucionar problemas de calidad de los datos, con solo unos pocos clics y directamente en los cuadernos. Cuando los usuarios muestran un marco de datos (una representación tabular de datos) en sus cuadernos, los cuadernos de SageMaker Studio generan gráficos automáticamente para ayudar a los usuarios a comprender sus patrones de distribución de datos, identificar posibles problemas (como datos incorrectos, datos faltantes o valores atípicos) y sugiere transformaciones de datos para solucionarlos. La nueva capacidad también permite a los usuarios identificar problemas de calidad de los datos en la columna de destino, lo cual afectarán el rendimiento del modelo de ML (por ejemplo, datos desequilibrados o tipos de datos mixtos), y sugiere transformaciones de datos para solucionarlos. Una vez que el profesional de ML selecciona una transformación de datos, los cuadernos de SageMaker Studio generan los códigos correspondientes dentro del cuaderno para que la transformación de datos se pueda aplicar reiteradamente cada vez que se ejecuta el cuaderno.
Esta característica está disponible de manera general y sin cargo adicional en todas las regiones en que actualmente se admiten los cuadernos de SageMaker Studio.
Para comenzar, consulte los siguientes recursos: