亚马逊AWS官方博客

Category: AWS Big Data

通过 Amazon EMR 重新配置动态修改集群

如果您是使用长期运行的 Amazon EMR 集群的开发人员或数据科学家,您将面临快速变化的工作负载。这些变化通常需要不同的应用程序配置才能在集群上以最佳方式运行。
通过重新配置功能,现在可以更改正在运行的 EMR 集群上的配置。从 EMR 版本 emr-5.21.0 开始,该功能允许您在不创建新集群或通过 SSH 手动连接到每个节点的情况下修改配置。

Read More

部署高可用的EMR集群,为您的业务连续性保驾护航

Amazon EMR 是一个托管集群平台,可简化在 AWS 上运行大数据框架(如 Apache Hadoop 和 Apache Spark)以处理和分析海量数据的操作。借助这些框架和相关的开源项目 (如 Apache Hive 和 Apache Pig)。您可以处理用于分析目的的数据和商业智能工作负载。此外,您可以使用 Amazon EMR 转换大量数据和将大量数据移入和移出其他 AWS 数据存储和数据库,如 Amazon S3 或 Amazon DynamoDB等。

Read More

对症下药 – Redshift 调优方法漫谈

所谓流水不腐户枢不蠹,任何一款数据库即使有完善的初始设计,随着数据量的增长变化,依然需要DBA的精心维护调优,才能保证数据库以最佳状态为客户提供服务。Amazon Redshift也是如此,本文将着重向读者介绍如何定位性能问题以及性能调优的最佳实践。

Read More

善始方能善终- Amazon Redshift 表设计探秘

Amazon Redshift的表设计与OLTP的表设计有很大区别,Amazon Redshift需要面对海量数据集和极其复杂的分析查询,如果设计不当,大规模并行处理就会受到数据分配不均和数据移动的影响,从而大大影响性能,本文希望能为读者理清Amazon Redshift表设计的一些基本原则,分享一些最佳实践,让读者能最大限度地发挥Amazon Redshift的潜力。

Read More

Amazon Kinesis Data Streams 推出增强扇出功能和 HTTP/2 数据检索 API功能

几周前,我们为 Amazon Kinesis Data Streams (KDS) 推出了两项重要的性能加强功能:增强扇出功能和 HTTP/2 数据检索 API。增强的扇出功能允许开发人员通过为每个数据流消费者提供其自己的读取吞吐量来扩增数据流消费者的数量(应用程序实时从数据流中读取数据)。与此同时,在常见情况下,HTTP/2 数据检索 API 允许在 70 毫秒或更短的时间内(提升了 65%)将数据从生产者传送给消费者。这些新功能可让开发人员依托 Kinesis Data Streams,构建速度更快、反应更灵敏、高度并行化且对延迟敏感的应用程序。

Read More