亚马逊AWS官方博客

Category: AWS Big Data

部署高可用的EMR集群,为您的业务连续性保驾护航

Amazon EMR 是一个托管集群平台,可简化在 AWS 上运行大数据框架(如 Apache Hadoop 和 Apache Spark)以处理和分析海量数据的操作。借助这些框架和相关的开源项目 (如 Apache Hive 和 Apache Pig)。您可以处理用于分析目的的数据和商业智能工作负载。此外,您可以使用 Amazon EMR 转换大量数据和将大量数据移入和移出其他 AWS 数据存储和数据库,如 Amazon S3 或 Amazon DynamoDB等。

Read More

对症下药 – Redshift 调优方法漫谈

所谓流水不腐户枢不蠹,任何一款数据库即使有完善的初始设计,随着数据量的增长变化,依然需要DBA的精心维护调优,才能保证数据库以最佳状态为客户提供服务。Amazon Redshift也是如此,本文将着重向读者介绍如何定位性能问题以及性能调优的最佳实践。

Read More

善始方能善终- Amazon Redshift 表设计探秘

Amazon Redshift的表设计与OLTP的表设计有很大区别,Amazon Redshift需要面对海量数据集和极其复杂的分析查询,如果设计不当,大规模并行处理就会受到数据分配不均和数据移动的影响,从而大大影响性能,本文希望能为读者理清Amazon Redshift表设计的一些基本原则,分享一些最佳实践,让读者能最大限度地发挥Amazon Redshift的潜力。

Read More

Amazon Kinesis Data Streams 推出增强扇出功能和 HTTP/2 数据检索 API功能

几周前,我们为 Amazon Kinesis Data Streams (KDS) 推出了两项重要的性能加强功能:增强扇出功能和 HTTP/2 数据检索 API。增强的扇出功能允许开发人员通过为每个数据流消费者提供其自己的读取吞吐量来扩增数据流消费者的数量(应用程序实时从数据流中读取数据)。与此同时,在常见情况下,HTTP/2 数据检索 API 允许在 70 毫秒或更短的时间内(提升了 65%)将数据从生产者传送给消费者。这些新功能可让开发人员依托 Kinesis Data Streams,构建速度更快、反应更灵敏、高度并行化且对延迟敏感的应用程序。

Read More

使用 Amazon Redshift 进行高性能 ETL 处理的八大最佳实践

本文主要介绍 Amazon Redshift 数据仓库服务在用于常规 ETL 操作时,可以通过并行导入数据文件、配置 WLM 队列、执行清理命令或者借助 Amazon Spectrum 的功能等8个最佳实践方法来优化整个 ETL 的处理流程,实现对 AWS 资源的最大化利用。文末还通过一个典型的 ETL 过程向读者展示了这些技巧的实战用法。

Read More