Publicado en: Mar 30, 2021
Al crear conjuntos de datos en AWS Glue DataBrew desde un lago de datos de Amazon S3, puede crear conjuntos de datos dinámicos para programar la preparación de datos en nuevos archivos de Amazon S3 o aplicar transformaciones en archivos o directorios filtrados o elegidos de acuerdo a una condición en S3. Puede crear una ruta de S3 dinámica para elegir archivos basados en una ventana de tiempo o en la última actualización del archivo y definir parámetros personalizados para reemplazar valores en función de cadenas de caracteres, números o fechas en la ruta del archivo de S3 con un filtro de condiciones, tales como: comienza con, termina con, contiene, no contiene, menor que, mayor que, antes de y otros. Se pueden incluir nombres de parámetros personalizados como columnas en los conjuntos de datos y el esquema revisado se utilizará para ejecutar trabajos en conjuntos de datos dinámicos. Con rutas o archivos de S3 parametrizados, los usuarios pueden programar la aplicación de recetas existentes para que se ejecuten en conjuntos de datos dinámicos seleccionados.
DataBrew es una herramienta de preparación de datos visuales que facilita la limpieza y normalización de datos mediante más de 250 transformaciones para preparación de estos, sin necesidad de escribir ningún código.
Para obtener más información, vea este video de introducción o utilice un conjunto de datos de muestra para explorar DataBrew. Para comenzar, visite la consola de administración de AWS o instale el complemento de DataBrew en el entorno de bloc de notas y consulte la documentación de DataBrew.