Publicado: Mar 7, 2023

Agora, o streaming de ETL tem suporte no AWS Glue versão 4.0, uma nova versão que acelera as workloads de integração de dados na AWS. O AWS Glue 4.0 atualiza os mecanismos de integração de dados, incluindo uma atualização para o Apache Spark 3.3.0 e o Python 3.10.

Os trabalhos de streaming de ETL do AWS Glue consomem dados continuamente de fontes de streaming, limpam e transformam os dados em trânsito e os disponibilizam para análise em segundos. Esta versão inclui um armazenamento de gerenciamento de estado otimizado para criar soluções de streaming eficientes em microlotes. Esse recurso facilita a remoção de duplicidades em um fluxo e as agregações baseadas em fluxo. Você também pode adicionar uma coluna que indica quando um registro correspondente foi recebido pelo fluxo para melhorar a observabilidade dos dados. Esta versão também oferece suporte à autenticação do IAM para o Amazon Managed Streaming para Apache Kafka Serverless.

O streaming de ETL do AWS Glue 4.0 já está disponível nas mesmas regiões da AWS que o AWS Glue, exceto China e GovCloud.

Para saber mais, leia sobre os trabalhos de ETL de streaming na documentação.