亚马逊AWS官方博客

AWS Localization

Author: AWS Localization

使用 Apache Airflow、Genie 和 Amazon EMR 编排大数据工作流:第 1 部分

在 AWS 上运行大数据 ETL 工作流的大型企业的运营规模很大,从而为很多内部终端用户提供服务,并且同时运行数千个管道。再加上需要持续更新和扩展大数据平台以第一时间掌握新框架和最新版本的大数据处理框架,这便需要高效的架构和组织结构,既能简化大数据平台的管理,又能方便对大数据应用进行访问。
此博文介绍了可帮助集中平台团队维护大数据平台以同时服务数千个 ETL 工作流的架构,并且简化了实现该目的所需的操作任务。

Read More

Amazon EMR 推出适用于 Apache Spark 的 EMR Runtime

Amazon EMR宣布推出了适用于 Apache Spark 的 Amazon EMR Runtime,这是一种针对 Apache Spark 进行了性能优化的环境,此runtime在 Amazon EMR 集群上默认处于活动状态。适用于 Spark 的 EMR runtime速度最快可达 EMR 5.16 的 32 倍,并且与开源 Spark API实现了 100% 的兼容性。这使得工作负载运行速度更快,无需对应用程序进行任何更改即可节省计算成本。

Read More

使用 Amazon Redshift 设计数据湖架构的 ETL 和 ELT 模式:第 1 部分

在本系列文章的第 1 部分中,我们将讨论使用主要和短期 Amazon Redshift 集群构建可扩展 ETL(提取、转换、加载)和 ELT(提取、加载、转换)数据处理管道的设计的最佳实践。您还将了解一些重要的 Amazon Redshift 功能(例如 Amazon Redshift Spectrum、并发扩展以及最近新增的对数据湖导出的支持)的相关用例。

Read More

使用 Kerberos 身份验证将 Amazon EMR 与 Microsoft Active Directory 集成

本文将指导您完成整个流程,使用 AWS CloudFormation 建立跨领域信任,并将身份验证从 Active Directory 网络扩展到启用了 Kerberos 的 Amazon EMR 集群。建立跨领域信任后,Active Directory 用户可以使用自己的 Active Directory 凭证访问 Amazon EMR 集群,并以自己的身份运行作业。

Read More

Amazon Redshift Spectrum 将数据仓库扩展到 EB 级别且无需加载

很多年前,当我们首次研究构建基于云的数据仓库的可行性时,现实不容乐观:我们的客户所存储的数据量在持续不断的增加,但只有小部分数据进入了数据仓库或
Hadoop 系统以供分析。我们发现这一问题并不仅限于云领域。这一问题在业界广泛存在,体现为企业存储细分市场的增长速率远远超过数据仓库细分市场的增长速率。

Read More

使用 AWS Step Functions 和 AWS Glue 编排基于 Amazon Redshift 的 ETL 工作流

在本文中,我将展示如何使用 AWS Step Functions 和 AWS Glue Python Shell 以完全无服务器的方式为那些基于Amazon Redshift 的 ETL 工作流编排任务。AWS Glue Python Shell 是一个 Python 运行时环境,用于运行中小型 ETL 任务,例如提交 SQL 查询和等待响应。Step Functions 可让您将多个 AWS 服务协调到工作流中,从而可以轻松运行和监视一系列 ETL 任务。AWS Glue Python Shell 和 Step Functions 均无服务器,允许自动运行和扩展它们以响应定义的事件,而无需配置、扩展和管理服务器。

Read More

利用 DataSunrise Security 保护和审计 Amazon Redshift 中的 PII 数据

这篇文章重点介绍了 Amazon Redshift 的主动安全性,尤其是 DataSunrise 对个人身份信息 (PII) 的屏蔽和访问控制功能,您可以使用 DataSunrise 的被动安全性产品(如敏感信息访问审计)来支持这些功能。文章还讨论了 Amazon Redshift 的 DataSunrise 安全性、工作原理以及如何使用。

Read More