Publicado en: Mar 30, 2021

Con AWS Glue DataBrew, ahora puede detectar visualmente valores atípicos en lagos de datos, almacenes de datos y otros orígenes de datos accesibles por JDBC. Además, puede manejar los valores atípicos al sustituirlos, eliminarlos, reescalarlos o marcarlos mediante métodos matemáticos y algorítmicos como la puntuación Z (para encontrar la diferencia con respecto al valor medio y dividirla por la desviación estándar), la puntuación Z modificada (para calcular la diferencia con respecto a la desviación absoluta de la mediana), los rangos intercuartílicos (para calcular los valores entre el primer cuartil y el tercer cuartil) y una o más transformaciones como la creación de una columna de marcas, la aplicación de funciones de ventana o la elección de más de 250 transformaciones.  

En los análisis y casos de uso de machine learning, los conjuntos de datos a menudo contienen valores atípicos, ya sea con información valiosa o anomalías sin valor causadas por errores de medida y registro. Incluir o excluir los valores atípicos en los conjuntos de datos puede influir directamente sobre el resultado del análisis o sobre los modelos de machine learning y en las decisiones que se tomen basadas en estos datos. Cuando se trabaja con pequeñas muestras de los datos del lago y de los almacenes de datos, hay que cortar y achicar los datos varias veces en el código para detectar y controlar todos los valores atípicos en los datos porque no hay una manera visual de percibirlos. Ahora, con DataBrew no solo puede obtener una vista previa de los valores atípicos en los perfiles del conjunto de datos, sino que también puede controlarlos apropiadamente sin escribir ningún código.

AWS Glue DataBrew es una herramienta de preparación de datos visuales que facilita la limpieza y normalización de datos mediante más de 250 transformaciones integradas para preparación de datos, sin necesidad de escribir ningún código.