Publicado en: Oct 21, 2022
Hoy, nos complace anunciar la compatibilidad con la reducción de la dimensionalidad mediante el análisis de componentes principales (PCA) en Amazon SageMaker Data Wrangler. Amazon SageMaker Data Wrangler reduce, de semanas a minutos, el tiempo que se demora en agregar y preparar datos para machine learning (ML). Con Data Wrangler, podrá simplificar el proceso de preparación de datos e ingeniería de características, y podrá completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, limpieza, exploración y visualización de datos en una única interfaz visual. El PCA es una técnica popular para analizar grandes conjuntos de datos que contienen una gran cantidad de dimensiones por observación y es una técnica estadística útil para reducir la dimensionalidad de un conjunto de datos para usar con algoritmos de ML conocidos, como XgBoost y Random Forest. Anteriormente, para realizar el PCA en un conjunto de datos, los científicos de datos tenían que encontrar bibliotecas apropiadas y escribir código para reducir los datos de gran dimensión.
Con la compatibilidad con el PCA en Data Wrangler, ahora puede reducir fácilmente la dimensionalidad de un conjunto de datos de gran dimensión con solo unos pocos clics. Puede acceder al PCA seleccionando Reducción de dimensionalidad en el flujo de trabajo “Agregar paso”. El selector de columnas integrado le permite seleccionar automáticamente todas las columnas numéricas y especificar la cantidad de componentes principales que desea conservar. Opcionalmente, puede especificar el porcentaje de umbral de varianza adecuado y Data Wrangler determinará automáticamente la cantidad adecuada de componentes para retener en su conjunto de datos transformados.
Esta característica está disponible en general en todas las regiones de AWS que en este momento admiten Data Wrangler sin costo adicional. Para comenzar a programar sus trabajos de procesamiento de datos con SageMaker Data Wrangler, lea la documentación de AWS.