Publicado en: Mar 7, 2023

AWS Glue ahora admite el streaming de ETL en la versión 4.0, una nueva versión de AWS Glue que acelera las cargas de trabajo de integración de datos en AWS. AWS Glue 4.0 actualiza los motores de integración de datos, incluida una actualización a Apache Spark 3.3.0 y Python 3.10.

Los trabajos de ETL de transmisión de AWS Glue consumen datos de manera continua de fuentes de transmisión, limpian y transforman los datos en tránsito y hacen que estén disponibles para su análisis en cuestión de segundos. Esta versión incluye una tienda de administración estatal optimizada para crear soluciones de streaming eficientes en microlotes. Esto facilita la eliminación de duplicados en una transmisión y la realización de agregaciones basadas en secuencias. También puede añadir una nueva columna que indique cuándo la transmisión recibió el registro correspondiente para una mejor observabilidad de los datos. Esta versión también admite la autenticación de IAM para Amazon Managed Streaming para Apache Kafka Serverless.

El ETL de streaming de AWS Glue 4.0 ya está disponible en las mismas regiones de AWS que AWS Glue, excepto en China y GovCloud.

Para obtener más información, consulta nuestra documentación sobre los trabajos de ETL en streaming.