亚马逊AWS官方博客

Category: AWS Big Data

Amazon Redshift Spectrum 将数据仓库扩展到 EB 级别且无需加载

很多年前,当我们首次研究构建基于云的数据仓库的可行性时,现实不容乐观:我们的客户所存储的数据量在持续不断的增加,但只有小部分数据进入了数据仓库或
Hadoop 系统以供分析。我们发现这一问题并不仅限于云领域。这一问题在业界广泛存在,体现为企业存储细分市场的增长速率远远超过数据仓库细分市场的增长速率。

在 Amazon EMR 上运行 PySpark 报表业务

前言
关于Spark和Amazon EMR
正文
数据集
启动EMR Spark集群
PySpark编程和调试
使用Spark SQL API和DataFrame编写报表任务
使用EMR步骤功能提交PySpark任务
创建EMR一次性集群运行PySpark任务
对并表后的数据进行查询
结语

使用 AWS Step Functions 和 AWS Glue 编排基于 Amazon Redshift 的 ETL 工作流

在本文中,我将展示如何使用 AWS Step Functions 和 AWS Glue Python Shell 以完全无服务器的方式为那些基于Amazon Redshift 的 ETL 工作流编排任务。AWS Glue Python Shell 是一个 Python 运行时环境,用于运行中小型 ETL 任务,例如提交 SQL 查询和等待响应。Step Functions 可让您将多个 AWS 服务协调到工作流中,从而可以轻松运行和监视一系列 ETL 任务。AWS Glue Python Shell 和 Step Functions 均无服务器,允许自动运行和扩展它们以响应定义的事件,而无需配置、扩展和管理服务器。

利用 DataSunrise Security 保护和审计 Amazon Redshift 中的 PII 数据

这篇文章重点介绍了 Amazon Redshift 的主动安全性,尤其是 DataSunrise 对个人身份信息 (PII) 的屏蔽和访问控制功能,您可以使用 DataSunrise 的被动安全性产品(如敏感信息访问审计)来支持这些功能。文章还讨论了 Amazon Redshift 的 DataSunrise 安全性、工作原理以及如何使用。