Publicado en: Feb 11, 2021
Al ejecutar trabajos de perfil en AWS Glue DataBrew para generar automáticamente más de 40 estadísticas de calidad de los datos, como cardinalidad a nivel de columna, correlaciones numéricas, valores únicos, desviación típica y otras estadísticas, ahora puede configurar el tamaño del conjunto de datos que quiere analizar. Esto le permite personalizar el perfil para que se ejecute en un x % del conjunto de datos, para casos en los que los conjuntos de datos son muy grandes o para centrarse en una submuestra del conjunto y obtener resultados más rápidamente.
Una vez que el trabajo de perfil termina de ejecutar el análisis, DataBrew pone de relieve todas las estadísticas en un panel de perfil visual en la consola, y almacena las estadísticas sin procesar como un objeto JSON en su bucket de Amazon S3. Gracias a esto, puede monitorear la calidad de los datos entrantes a lo largo del tiempo, detectar cambios inesperados o no deseados en los datos y configurar alertas de calidad de los datos automatizadas en cuestión de minutos, y no horas, días o semanas, sin necesidad de escribir código.
Para comenzar, visite la AWS Management Console o instale el completo de DataBrew en su entorno de bloc de notas y consulte la documentación de DataBrew.