发布于: Apr 27, 2020
AWS Glue 现在支持流式 ETL。借助此功能,您可以轻松地设置持续摄取管道,以准备实时流数据并使其在几秒内便可用于分析。AWS Glue 中的流 ETL 作业可使用 Amazon Kinesis 和 Apache Kafka 等流源中的数据,实时清理和转换该数据流,并将结果连续加载至 Amazon S3 数据湖、数据仓库或其他数据存储。客户可使用此功能来处理事件数据,例如 IoT 事件流、点击流和网络日志。AWS Glue 中的流 ETL 作业在 Apache Spark Structured Streaming 引擎上运行,因此客户可使用它们来丰富、聚合及合并流数据,以及运行各种复杂的分析和机器学习操作。
在此之前,您必须手动构建并整合流处理和监控系统,才可构建流数据摄取管道。AWS Glue 中的流 ETL 作业利用 AWS Glue 的无服务器基础设施来简化资源管理、优化成本并使您无需编写代码即可设置持续摄取管道,从而将实现时间从数月缩短至数天。
此功能现已在与 AWS Glue 相同的 AWS 区域 推出。
要了解有关此功能的更多信息,请访问我们的 文档。