Publicado en: Apr 27, 2020
AWS Glue ya es compatible con streaming de procesos ETL. Gracias a esta característica, podrá configurar de forma sencilla las canalizaciones de incorporación continua que se encargan de preparar sobre la marcha los datos de streaming y permiten analizarlos en cuestión de segundos. Los trabajos de streaming de procesos ETL en AWS Glue pueden consumir datos de orígenes de streaming como Amazon Kinesis y Apache Kafka, limpiarlos y transformarlos sobre la marcha y, por último, cargar los resultados en lagos de datos de Amazon S3, en almacenes de datos o en otro tipo de repositorios. Los clientes pueden utilizar esta característica para procesar datos de eventos como transmisiones de eventos de IoT, secuencias de clics y registros de redes. Los trabajos de streaming de procesos ETL en AWS Glue se ejecutan en un motor de Apache Spark Structured Streaming, con lo que los clientes pueden usarlos para completar, agregar y combinar datos de streaming, así como para ejecutar distintas operaciones de análisis complejos y de aprendizaje automático.
Hasta ahora, era necesario diseñar y compilar a mano los sistemas de gestión y monitoreo de transmisiones para crear las canalizaciones de incorporación de datos de streaming. El streaming de trabajos de ETL mediante AWS Glue aprovecha la infraestructura sin servidor de este servicio para simplificar la administración de recursos, optimizar los costos y permitirle configurar las canalizaciones de incorporación continua sin necesidad de escribir código, lo cual reduce el tiempo medio de implementación de meses a días.
Esta característica ya está disponible en las mismas regiones de AWS que AWS Glue.
Consulte la documentación para obtener más información acerca de esta característica.