发布于: Nov 29, 2022

Amazon Redshift 现支持 Amazon Kinesis Data Streams (KDS) 和 Amazon Managed Streaming for Apache Kafka (MSK) 的实时流式摄取功能。Amazon Redshift 流式摄取消除了在将流数据摄取到 Amazon Redshift 之前在 Amazon S3 中暂存数据的需要,使客户能够在每秒将数百兆的流数据摄取到数据仓库的同时,实现以秒为单位的低延迟。 

数据工程师、数据分析师和大数据开发人员正在将他们的分析从批量转向实时,他们采用了 Amazon KDS 和 Amazon MSK 等流媒体引擎,对流媒体应用程序数据实现了近乎实时的响应式逻辑和分析。目前,想要将实时数据从 Amazon KDS 和 Amazon MSK 等服务摄取到 Amazon Redshift 的客户,必须首先将数据暂存在 Amazon S3 中,并使用 COPY 命令,这将实现以分钟为单位的延迟。有了 Amazon Redshift 中的新流式摄取功能,您可以在 Redshift 中使用 SQL(结构化查询语言)来提供同时连接和直接摄取来自多个 Amazon KDS 流或多个 Amazon MSK 主题的数据的功能。Amazon Redshift 流式摄取允许您直接在数据流之上创建实体化视图,从而简化了数据管道。实体化视图还包括 SQL 转换,作为 ELT(提取、加载、转换)管道的一部分。

定义了实体化视图之后,当自动刷新功能启用时,流数据会自动且持续地从 KDS 流或 MSK 主题摄取到 Amazon Redshift 流实体化视图中。当需要直接控制摄取调度时,您还可以选择手动刷新流实体化视图。这种方法允许您使用现有 Amazon Redshift 工具和熟悉的 SQL 执行流数据的下游处理和转换,而无需额外付费。

Amazon Redshift 流式摄取功能目前在所有提供 Amazon Redshift 的 Amazon Web Services (AWS) 区域正式推出。要开始使用 Amazon Redshift 流式摄取,请在 CURRENT Track 中预置一个 Amazon Redshift 集群。若要详细了解如何开始使用 Amazon Redshift 流式摄取,请参阅 Amazon Redshift 文档页面。