发布于: Mar 7, 2023
AWS Glue 现在支持 4.0 版中的流式 ETL,这是 AWS Glue 的新版本,可加快 AWS 中的数据集成工作负载。AWS Glue 4.0 升级了数据集成引擎,包括升级到 Apache Spark 3.3.0 和 Python 3.10。
AWS Glue 流式 ETL 作业会持续消耗来自流源的数据,在运行中清理和转换数据,并在几秒内使数据可供分析使用。此版本包括经过优化的状态管理存储,用于跨微批次构建高效的流媒体解决方案。 这样可以更轻松地删除流中的重复项和执行基于流的聚合。您还可以添加一个新列来指示流何时收到相应的记录,以提高数据的可观测性。此版本还支持 Amazon Managed Streaming for Apache Kafka Serverless 的 IAM 身份验证。
AWS Glue 4.0 流式 ETL 现已在提供 AWS Glue 的相同 AWS 区域(中国和 GovCloud 除外)推出。
要了解更多信息,请阅读此文档中关于流式 ETL 作业的部分。