Analytics | 亚马逊AWS官方博客

数据自由、分析无忧 – 字节跳动 ByteHouse 数据融合指南之对象存储 S3

通过与亚马逊云科技的无缝对接，ByteHouse 可以实现海量数据的弹性存储，并支持按需自动扩展计算资源。这种云原生的数据仓库架构，可帮助企业快速建立一个统一的、高性能的数据分析平台，以 SaaS 形式降低企业数字化国际化的门槛。

AWS re:Invent 2023 上的 AWS Analytics 指南

在今年的 AWS re:Invent 上加入 AWS Analytics 团队的行列，在这里，新思路和令人兴奋 […]

多库多表场景下 CDC 数据实时写入 Redshift 数仓方案

本篇文章介绍了多库多表实时同步到 Redshift 的方案选择及各自方案的适用场景。

基于 Flink on Kinesis Data Analytics 对数据进行流式处理

基于 KDA，用户可以通过使用 Flink 的流式处理引擎和 Kinesis Data Analytics 的实时数据分析和可视化工具来构建复杂的数据处理管道，这些管道可以从多个数据源中汇聚数据，并将其转换为有价值的信息。同时，基于 KDA 的解决方案还可以支持监控和告警等业务场景，以帮助用户快速识别和解决潜在的问题，并高效地处理和分析实时数据。

使用亚马逊云科技服务同步数据到 Amazon Redshift 的方案与实践

企业内部需要分析的数据主要存在于关系数据库和 NoSQL 类型的数据库中，要使用 Amazon Redshift 对这些数据进行分析，首先需要将这些业务数据库中的数据同步到数仓中。本文将介绍使用亚马逊云科技服务同步数据到 Amazon Redshift 的方案以及相关实践。

使用 Amazon EMR 和 Apache Paimon 构建流式数据湖

Apache Paimon 是近年来发展起来的一个流式数据湖平台，相比于其它的开源数据湖组件，其更加侧重数据湖上的流式数据处理。由于其流批统一的设计理念、基于 LSM 的底层数据存储、高速流式数据摄取与分析能力以及很好的系统稳定性，已经被一些企业用在生产环境中。结合 Apache Paimon 的特性，本文将使用 Amazon EMR 在 Amazon S3 上构建流式数据湖，验证 Apache Paimon 与 Amazon EMR 服务的适配性。

Amazon Managed Streaming for Apache Kafka 故障转移和扩容时间测试报告

为了测试 Amazon MSK 的扩容性能，我们对其进行了一系列的测试，包括扩容分区数量、扩容代理数量和扩容磁盘容量等方面的测试。此外，我们还模拟了故障转移场景，观察了集群在故障转移过程中的性能表现和响应时间，以评估 Amazon MSK 在故障发生时的自动恢复能力。这些测试旨在评估 Amazon MSK 在扩容过程中的性能表现和响应时间，并为用户提供参考，以便他们更好地了解 Amazon MSK 的扩容能力，并做出更好的决策。在本测试报告中，我们将详细介绍测试的环境和方法，并分析测试结果。

利用 StarRocks on AWS 实现高性能实时数据分析

StarRocks 是专为所有数据分析场景而设计的下一代亚秒级 MPP 数据库，旨在提供任何规模的简单快速的数据分析。结合易于使用的数据加载管道和对数据源的丰富支持，StarRocks on AWS 可以帮助用户实现他们的目标。StarRocks Flink CDC 连接器的推出是为了简化实时数据加载管道，成为 StarRocks 数据加载领域的新成员。

在基于 Amazon 云平台的湖仓一体架构上构建数据血缘的探索和实践

本文会为您介绍在湖仓一体架构下，如何将亚马逊云科技的数据湖 Amazon S3 在数据 ETL 处理过程中通过 Spline 捕获并产生在图数据库 ArangoDB 中的数据血缘和数据仓库 Amazon Redshift 通过 DBT 产生的数据血缘进行合并，并使用图数据库 Amazon Neptune 通过 DAG 图进行可视化展示。

Amazon MSK 推出从 Apache Kafka 到您的数据湖的托管数据传输

我很高兴地宣布 Amazon Managed Streaming for Apache Kafka（Ama […]

亚马逊AWS官方博客

Category: Analytics