亚马逊AWS官方博客
Category: Analytics
通过 Amazon Clean Rooms 助力广告行业实现隐私保护的数据协作
本文介绍了 Clean Rooms 在面临广告行业隐私数据保护需求挑战时提供的解决方案,以及 Clean Rooms 中的分析规则、数据连接和最佳实践等。可以看到,Clean Rooms 为广告行业实现隐私保护的数据协作提供了重要支持,而随着服务的不断完善和新功能的增添,相信它将为企业开启更多高效、安全的协作新模式,实现隐私保护和商业价值的双赢。
尝试使用 Amazon OpenSearch Service 向量引擎进行语义搜索
Amazon OpenSearch Service 自 2020 年推出 kNN 插件以来,一直支持词法和向量 […]
数据自由、分析无忧 – 字节跳动 ByteHouse 数据融合指南之对象存储 S3
通过与亚马逊云科技的无缝对接,ByteHouse 可以实现海量数据的弹性存储,并支持按需自动扩展计算资源。这种云原生的数据仓库架构,可帮助企业快速建立一个统一的、高性能的数据分析平台,以 SaaS 形式降低企业数字化国际化的门槛。
AWS re:Invent 2023 上的 AWS Analytics 指南
在今年的 AWS re:Invent 上加入 AWS Analytics 团队的行列,在这里,新思路和令人兴奋 […]
多库多表场景下 CDC 数据实时写入 Redshift 数仓方案
本篇文章介绍了多库多表实时同步到 Redshift 的方案选择及各自方案的适用场景。
基于 Flink on Kinesis Data Analytics 对数据进行流式处理
基于 KDA,用户可以通过使用 Flink 的流式处理引擎和 Kinesis Data Analytics 的实时数据分析和可视化工具来构建复杂的数据处理管道,这些管道可以从多个数据源中汇聚数据,并将其转换为有价值的信息。同时,基于 KDA 的解决方案还可以支持监控和告警等业务场景,以帮助用户快速识别和解决潜在的问题,并高效地处理和分析实时数据。
使用亚马逊云科技服务同步数据到 Amazon Redshift 的方案与实践
企业内部需要分析的数据主要存在于关系数据库和 NoSQL 类型的数据库中,要使用 Amazon Redshift 对这些数据进行分析,首先需要将这些业务数据库中的数据同步到数仓中。本文将介绍使用亚马逊云科技服务同步数据到 Amazon Redshift 的方案以及相关实践。
使用 Amazon EMR 和 Apache Paimon 构建流式数据湖
Apache Paimon 是近年来发展起来的一个流式数据湖平台,相比于其它的开源数据湖组件,其更加侧重数据湖上的流式数据处理。由于其流批统一的设计理念、基于 LSM 的底层数据存储、高速流式数据摄取与分析能力以及很好的系统稳定性,已经被一些企业用在生产环境中。结合 Apache Paimon 的特性,本文将使用 Amazon EMR 在 Amazon S3 上构建流式数据湖,验证 Apache Paimon 与 Amazon EMR 服务的适配性。
Amazon Managed Streaming for Apache Kafka 故障转移和扩容时间测试报告
为了测试 Amazon MSK 的扩容性能,我们对其进行了一系列的测试,包括扩容分区数量、扩容代理数量和扩容磁盘容量等方面的测试。此外,我们还模拟了故障转移场景,观察了集群在故障转移过程中的性能表现和响应时间,以评估 Amazon MSK 在故障发生时的自动恢复能力。这些测试旨在评估 Amazon MSK 在扩容过程中的性能表现和响应时间,并为用户提供参考,以便他们更好地了解 Amazon MSK 的扩容能力,并做出更好的决策。在本测试报告中,我们将详细介绍测试的环境和方法,并分析测试结果。
利用 StarRocks on AWS 实现高性能实时数据分析
StarRocks 是专为所有数据分析场景而设计的下一代亚秒级 MPP 数据库,旨在提供任何规模的简单快速的数据分析。结合易于使用的数据加载管道和对数据源的丰富支持,StarRocks on AWS 可以帮助用户实现他们的目标。StarRocks Flink CDC 连接器的推出是为了简化实时数据加载管道,成为 StarRocks 数据加载领域的新成员。