Publicado en: Jul 23, 2021
Ahora, AWS Glue DataBrew permite que los clientes especifiquen cuáles son las estadísticas relativas a la calidad de los datos que se generarán de forma automática para los conjuntos de datos cuando se ejecute un trabajo del perfil. De este modo, los usuarios podrán personalizar algunas estadísticas del perfil de datos, como por ejemplo, para determinar valores duplicados, correlaciones y valores atípicos en función de la naturaleza y el tamaño de los conjuntos de datos; asimismo, podrán crear resúmenes personalizados para los perfiles de datos usando únicamente las estadísticas que cumplen con sus requisitos.
DataBrew se encarga de extraer todas las estadísticas a partir de un perfil de trabajo en un panel visual y almacena los datos sin procesar como un objeto JSON en un bucket de Amazon S3. Los clientes pueden controlar cuáles son las estadísticas que se mostrarán, monitorear la calidad de los datos que llegan a lo largo del tiempo y descubrir cambios en los datos en cuestión de minutos sin necesidad de escribir ni una línea de código. Además, los clientes pueden configurar alertas automatizadas para la calidad de los datos mediante DataBrew y AWS Lambda, tal y como se explica de forma general en este artículo de blog.
Para comenzar, visite la consola de administración de AWS o instale el complemento de DataBrew en el entorno de bloc de notas y consulte la documentación de DataBrew.