Publicado en: Aug 16, 2021
Amazon SageMaker Data Wrangler reduce el tiempo que tarda agregar y preparar los datos para el machine learning (ML) de semanas a minutos. Con SageMaker Data Wrangler, es posible simplificar el proceso de preparación de datos y la ingeniería de características, así como completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, la limpieza, la exploración y la visualización de datos desde una única interfaz visual. A partir de hoy, puede usar nuevas capacidades de Amazon SageMaker Data Wrangler con el fin de preparar datos para ML de forma más fácil y rápida. Algunas de estas capacidades son: la detección de multicolinealidad, exportación sencilla de resultados a Amazon S3, ayuda para los delimitadores de columnas y habilidad para reutilizar el mismo flujo de SageMaker Data Wrangler en diferentes conjuntos de datos de su elección.
La multicolinealidad se produce cuando dos o más características de un conjunto de datos están estrechamente relacionadas entre sí. Detectar la presencia de multicolinealidad en un conjunto de datos es importante porque esta puede dificultar el rendimiento de un modelo de ML. A partir de hoy, puede usar tres nuevas visualizaciones de diagnóstico en Amazon SageMaker Data Wrangler para detectar la multicolinealidad de un conjunto de datos. La primera visualización le permite ver los factores de inflación de la varianza de su conjunto de datos. Unos factores de inflación de la varianza altos en los datos pueden indicar la presencia de multicolinealidad. La segunda visualización usa el análisis de componentes principales y la descomposición en valores singulares para calcular valores singulares. Una distribución altamente no uniforme de valores singulares en el conjunto de datos también puede indicar multicolinealidad. Finalmente, una tercera visualización utiliza LASSO (operador de selección y contracción mínima absoluta, que muestra los valores coeficientes de un modelo LASSO entrenado con sus datos. Las variables con valores coeficientes cercanos a cero pueden ser redundantes y es posible que no contribuyan significantemente al rendimiento de un modelo ML.
A partir de hoy, también puede exportar fácilmente sus datos preparados con tan solo unos clics. La nueva funcionalidad de exportación de Amazon SageMaker Data Wrangler ofrece un servicio de exportación con un botón para exportar sus datos. Basta con hacer clic en Exportar datos en la pestaña de preparación y especificar la ubicación de Amazon S3 en la que quiera almacenar los resultados. Los resultados se exportarán directamente a S3 para que los use en otras aplicaciones ML. De forma adicional, ahora puede importar datos en varios formatos delimitados, como formatos de datos separados por comas, pestañas, canalizaciones, punto y coma y dos puntos. Por último, ahora puede cambiar los conjuntos de datos usados en los flujos de datos de SageMaker Data Wrangler. Tan solo tiene que hacer clic en el nodo fuente de la vista de datos y seleccionar Editar conjunto de datos para modificar los datos fuente usados en el archivo de flujos de SageMaker Data Wrangler.
Para empezar a utilizar las nuevas capacidades de Amazon SageMaker Data Wrangler, puede abrir Amazon SageMaker Studio y hacer clic en Archivo > Nuevo > Flujo en el menú o en “nuevo flujo de datos” en el lanzador de SageMaker Studio. Para obtener más información, visite la página de características o consulte la documentación. También puede descubrir cómo actualizar a la última versión.