亚马逊AWS官方博客

Category: AWS Big Data

使用Amazon Glue构建无服务器流式ETL作业

在本文中,我们将深入探讨Amazon Glue中的流式ETL,介绍此功能如何帮助您在流式数据上构建持续的ETL应用程序。Amazon Glue中的流式ETL基于Apache Spark的结构化流引擎,该引擎提供一种高容错、可扩展且易于实现的方法,能够实现端到端的流处理。本文向大家展示使用Amazon Glue构建流处理管道的示例,其中包括从 Amazon Kinesis Data Streams当中读取流式数据、发现schema、运行流式ETL并将结果写入至接收端。

Amazon Redshift 跨数据库查询入门指南(预览版)

Amazon Redshift是一套快速、可扩展且安全的全托管云数据仓库,能够以简单、经济、高效的方式,使用标准SQL以及现有ETL、商务智能(BI)和报告工具对你的数据进行分析。每一天,成千上万的客户使用Amazon Redshift处理EB级别的数据,并为商务智能、预测分析与实时流分析等强大的分析工作负载提供支持。

使用 Simple Replay 实用程序简化 Amazon Redshift RA3 迁移评估

我们将介绍有关通过 Amazon Redshift Simple Replay 实用程序自动评估 Amazon Redshift RA3 实例的步骤。如果您使用旧一代 DS2 和 DC2 节点类型在 Amazon Redshift 中运行生产工作负载,则可以使用此解决方案自动从源生产集群中提取工作负载日志并在隔离的环境中重播这些日志,以便您直接无缝地对比这两个 Amazon Redshift 集群。