亚马逊AWS官方博客
Category: Analytics
DolphinScheduler + EMR Serverless 的集成实践
本文通过对 EMR on EC2 与 EMRServerless 中 Spark 任务的提交、监控、下载日志过程进行抽象并封装成 Python 类库,极大地简化了使用 Spark 的门槛,以及从 EMR on EC2 切换至 EMRServerless 的改造成本。
StarRocks 3.0 存算分离版基于亚马逊云科技的最佳实践
StarRocks 致力于构建新一代极速全场景 MPP (Massively Parallel Processing)数据库,致力于帮助企业构建极速统一的湖仓分析新范式。从初创公司到企业,组织都在使用 StarRocks on AWS 解决方案进行数据分析和治理。 StarRocks on AWS 让我们的客户可以在全球各地快速可靠地构建自己的数据分析中心。现在,为了让更多用户以更低廉的成本进行数据分析和治理,我们推出了存算分离版本。让我们的用户可以提高资源利用率的同时优化成本。
通过 Amazon Clean Rooms 助力广告行业实现隐私保护的数据协作
本文介绍了 Clean Rooms 在面临广告行业隐私数据保护需求挑战时提供的解决方案,以及 Clean Rooms 中的分析规则、数据连接和最佳实践等。可以看到,Clean Rooms 为广告行业实现隐私保护的数据协作提供了重要支持,而随着服务的不断完善和新功能的增添,相信它将为企业开启更多高效、安全的协作新模式,实现隐私保护和商业价值的双赢。
尝试使用 Amazon OpenSearch Service 向量引擎进行语义搜索
Amazon OpenSearch Service 自 2020 年推出 kNN 插件以来,一直支持词法和向量 […]
数据自由、分析无忧 – 字节跳动 ByteHouse 数据融合指南之对象存储 S3
通过与亚马逊云科技的无缝对接,ByteHouse 可以实现海量数据的弹性存储,并支持按需自动扩展计算资源。这种云原生的数据仓库架构,可帮助企业快速建立一个统一的、高性能的数据分析平台,以 SaaS 形式降低企业数字化国际化的门槛。
AWS re:Invent 2023 上的 AWS Analytics 指南
在今年的 AWS re:Invent 上加入 AWS Analytics 团队的行列,在这里,新思路和令人兴奋 […]
多库多表场景下 CDC 数据实时写入 Redshift 数仓方案
本篇文章介绍了多库多表实时同步到 Redshift 的方案选择及各自方案的适用场景。
基于 Flink on Kinesis Data Analytics 对数据进行流式处理
基于 KDA,用户可以通过使用 Flink 的流式处理引擎和 Kinesis Data Analytics 的实时数据分析和可视化工具来构建复杂的数据处理管道,这些管道可以从多个数据源中汇聚数据,并将其转换为有价值的信息。同时,基于 KDA 的解决方案还可以支持监控和告警等业务场景,以帮助用户快速识别和解决潜在的问题,并高效地处理和分析实时数据。
使用亚马逊云科技服务同步数据到 Amazon Redshift 的方案与实践
企业内部需要分析的数据主要存在于关系数据库和 NoSQL 类型的数据库中,要使用 Amazon Redshift 对这些数据进行分析,首先需要将这些业务数据库中的数据同步到数仓中。本文将介绍使用亚马逊云科技服务同步数据到 Amazon Redshift 的方案以及相关实践。
使用 Amazon EMR 和 Apache Paimon 构建流式数据湖
Apache Paimon 是近年来发展起来的一个流式数据湖平台,相比于其它的开源数据湖组件,其更加侧重数据湖上的流式数据处理。由于其流批统一的设计理念、基于 LSM 的底层数据存储、高速流式数据摄取与分析能力以及很好的系统稳定性,已经被一些企业用在生产环境中。结合 Apache Paimon 的特性,本文将使用 Amazon EMR 在 Amazon S3 上构建流式数据湖,验证 Apache Paimon 与 Amazon EMR 服务的适配性。