亚马逊AWS官方博客

Category: Analytics

基于 Flink on Kinesis Data Analytics 对数据进行流式处理

基于 KDA,用户可以通过使用 Flink 的流式处理引擎和 Kinesis Data Analytics 的实时数据分析和可视化工具来构建复杂的数据处理管道,这些管道可以从多个数据源中汇聚数据,并将其转换为有价值的信息。同时,基于 KDA 的解决方案还可以支持监控和告警等业务场景,以帮助用户快速识别和解决潜在的问题,并高效地处理和分析实时数据。

使用 Amazon EMR 和 Apache Paimon 构建流式数据湖

Apache Paimon 是近年来发展起来的一个流式数据湖平台,相比于其它的开源数据湖组件,其更加侧重数据湖上的流式数据处理。由于其流批统一的设计理念、基于 LSM 的底层数据存储、高速流式数据摄取与分析能力以及很好的系统稳定性,已经被一些企业用在生产环境中。结合 Apache Paimon 的特性,本文将使用 Amazon EMR 在 Amazon S3 上构建流式数据湖,验证 Apache Paimon 与 Amazon EMR 服务的适配性。

Amazon Managed Streaming for Apache Kafka 故障转移和扩容时间测试报告

为了测试 Amazon MSK 的扩容性能,我们对其进行了一系列的测试,包括扩容分区数量、扩容代理数量和扩容磁盘容量等方面的测试。此外,我们还模拟了故障转移场景,观察了集群在故障转移过程中的性能表现和响应时间,以评估 Amazon MSK 在故障发生时的自动恢复能力。这些测试旨在评估 Amazon MSK 在扩容过程中的性能表现和响应时间,并为用户提供参考,以便他们更好地了解 Amazon MSK 的扩容能力,并做出更好的决策。在本测试报告中,我们将详细介绍测试的环境和方法,并分析测试结果。

利用 StarRocks on AWS 实现高性能实时数据分析

StarRocks 是专为所有数据分析场景而设计的下一代亚秒级 MPP 数据库,旨在提供任何规模的简单快速的数据分析。结合易于使用的数据加载管道和对数据源的丰富支持,StarRocks on AWS 可以帮助用户实现他们的目标。StarRocks Flink CDC 连接器的推出是为了简化实时数据加载管道,成为 StarRocks 数据加载领域的新成员。

Alluxio 本地缓存 + EMR Presto 即席查询加速

对于大数据平台的 OLAP 查询引擎来说,天下武功唯快不破,Presto 做为大数据生态的业界知名的查询引擎和平台,首当其冲承载了业务查询分析的实时响应的需求。 对于 Presto 集群而言,横向扩展,加机器资源固然可以解决绝大多数性能问题,但成本也是客户考虑的重要因素。本文详细介绍了在 Amazon EMR 上集成 Alluxio 本地缓存做为 Presto 即席查询加速的具体实现,包括 Alluxio Presto 本地缓存整体架构原理,在 Amazon EMR 上 Alluxio 缓存相关的配置及对比测试。