亚马逊AWS官方博客

Category: Analytics

CDC 一键入湖:在 Amazon EMR Serverless 上运行 Apache Hudi DeltaStreamer

Apache Hudi 的 DeltaStreamer 是一种以近实时方式摄取数据并写入 Hudi 表的工具类,自 `0.10.0` 版开始,Hudi 在 DeltaStreamer 的基础上增加了基于 Debezium 的 CDC 数据处理能力。另一方面,越来越多的 Amazon EMR 的用户开始使用 Amazon EMR Serverless。一个是“全配置”的 Hudi 工具类, 一个是“开箱即用”的 Spark 运行环境,两者结合在一起,仅通过一条命令,就可以轻松实现 CDC 数据入湖。

使用 OpenTelemetry 实现现代化应用可观测性指南

博客重点讲解了在 Amazon EKS 环境下使用开源组件实现全栈可观测性的实践,包括日志传输、性能指标采集、应用跟踪和告警设置等。通过一个 Spring Boot 样例程序,展示了如何使用 OpenTelemetry 和 Amazon 的托管服务快速部署和设置跟踪、日志和指标等观测功能。

使用 Flink Hudi 处理变更数据流并通过 Redshift Spectrum 进行数据分析实践

这是一个典型的数据分析场景,分散在不同业务数据库里的表格数据,需要汇总到数据湖或数据仓库中进行统一分析。运营人员希望尽可能的实时查询到这些数据,他们需要第一手的订单数据以便快速做出决策。 为实现这类场景需求,有很多种办法,本文介绍通过可视化交互开发平台 Zeppelin 上使用 Flink SQL 实现 ETL 任务,并支持近实时高并发 Upsert 到数据湖,利用 Redshift Spectrum 进行快速分析查询。

利用 serverless 服务布署非组织且多账户的 Health 事件监控面板

对于亚马逊云科技的客户及合作伙伴,它们的账户众多且管理权限复杂,同时由于每月就会有数百甚至数千条通告信息,集中查看 Health 事件并定制化展示和分类是具有价值的,这里展示如何利用无服务器服务自动化布署并收集 Health 状态信息,同时定制化适合自己业务需求的监控面板,以此来准确掌控 Health 事件信息。