Publicado en: Mar 5, 2021
AWS Glue DataBrew suma cuatro nuevas transformaciones visuales, Binning (Discretización), Skewness (Asimetría), Binarization (Binarización) y Transpose (Transposición), que ayudan a analistas y científicos de datos a beneficiarse de dichas transformaciones sin necesidad de escribir código.
Binning (Discretización) es una técnica de preprocesamiento utilizada para reducir los efectos de errores de observación menores. La transformación de discretización le permite agrupar números de valores más o menos continuados en un número más reducido de “contenedores”. Por ejemplo, si tiene datos sobre un grupo de personas, es posible que desee ordenar sus edades en intervalos de edad menores (por ejemplo, agrupar las edades por intervalos de cinco años).
Skewness (Asimetría) es una medida de la asimetría de la distribución de probabilidad de una variable aleatoria de valor real respecto a su media. Con la transformación de asimetría, puede cambiar la figura de distribución y la inclinación de los datos.
Binarization (Binarización) es el proceso de dividir datos en dos grupos y asignar uno de los dos valores a todos los miembros del mismo grupo. Puede utilizar la transformación Binarization si define un umbral t y asigna el valor 0 a todos los puntos de datos por debajo del umbral y el valor 1 a todos los puntos por encima. Por poner un ejemplo sencillo, transformar una imagen en escala de grises de un espectro 0-255 a un espectro 0-1 es una binarización. Esto hace que los algoritmos de clasificación sean más eficientes en machine learning.
Transpose (Transposición) le permite rotar los datos de columnas a filas o viceversa. Con la transformación de transposición en DataBrew, puede crear visualizaciones más claras al rotar las columnas y las filas.
AWS Glue DataBrew es una herramienta de preparación de datos visuales que facilita la limpieza y normalización de datos mediante más de 250 transformaciones integradas para preparación de datos, sin necesidad de escribir ningún código. Para comenzar, visite la consola de administración de AWS o instale el completo de DataBrew en su entorno de bloc de notas y consulte la documentación de DataBrew.