亚马逊AWS官方博客

Category: AWS Big Data

DynamoDB Accelerator(DAX)服务–无需改写应用,将 DynamoDB 的响应时间从毫秒提升到微秒

传统的缓存场景通常是进行旁路的部署,需要考虑使用新的API接口、大量的应用修改,以及需要管理缓存的伸缩性和高可用等方面。用户的应用开发和运维管理工作的压力很大,因此一直期望有一个高性能、高可用并且简单易用的方案来做数据库的缓存。

Read More

使用 Amazon Redshift 设计数据湖架构的 ETL 和 ELT 模式:第 1 部分

在本系列文章的第 1 部分中,我们将讨论使用主要和短期 Amazon Redshift 集群构建可扩展 ETL(提取、转换、加载)和 ELT(提取、加载、转换)数据处理管道的设计的最佳实践。您还将了解一些重要的 Amazon Redshift 功能(例如 Amazon Redshift Spectrum、并发扩展以及最近新增的对数据湖导出的支持)的相关用例。

Read More

用 Airflow 实现 EMR 集群的动态启停并通过 Livy 远程提交任务

互联网行业每天都有大量的日志生成,需要在固定时间段对数据进行ETL工作。用户常规的做法是启动一组长期运行的EMR集群,配置远程提交任务的服务器,结合自身的任务调度系统定期提交任务,但集群执行完成任务之后会闲置,造成不必要的开销。另一种方法是在需要执行任务的时候启动集群,任务完成之后关闭集群,但因为每次启动集群后,主节点与核心节点的IP都会发生分变化,导致每次都需要重新配置提交任务的服务器,造成额外的工作负担。本文介绍了一种通过Apache Airflow任务调度系统动态启停Amazon EMR集群的方法,并通过EMR内置的Livy远程提交作业,这样可以节省大量的成本并且无需进行过多的额外配置。

Read More

使用 Kerberos 身份验证将 Amazon EMR 与 Microsoft Active Directory 集成

本文将指导您完成整个流程,使用 AWS CloudFormation 建立跨领域信任,并将身份验证从 Active Directory 网络扩展到启用了 Kerberos 的 Amazon EMR 集群。建立跨领域信任后,Active Directory 用户可以使用自己的 Active Directory 凭证访问 Amazon EMR 集群,并以自己的身份运行作业。

Read More

Amazon Redshift Spectrum 将数据仓库扩展到 EB 级别且无需加载

很多年前,当我们首次研究构建基于云的数据仓库的可行性时,现实不容乐观:我们的客户所存储的数据量在持续不断的增加,但只有小部分数据进入了数据仓库或
Hadoop 系统以供分析。我们发现这一问题并不仅限于云领域。这一问题在业界广泛存在,体现为企业存储细分市场的增长速率远远超过数据仓库细分市场的增长速率。

Read More