亚马逊AWS官方博客

Category: AWS Big Data

基于AWS云端数据质量治理解决方案

这篇博客介绍了基于AWS的全面数据质量解决方案DQ Key,此方案基于数据治理自上而下质量治理模型以及数据质量治理流程,从业务以及技术层面为客户提供数据质量从发现到治理的一整套完整解决方案。
Key Messages as Tag

从 Kudu 迁移到 Hudi

在构建本地数据中心的时候,出于Kudu良好的性能和兼备OLTP和OLAP的特性,以及对Impala SQL和Spark的支持,很多用户会选择Impala/Spark + Kudu的技术栈。但是由于Kudu对本地存储的依赖,导致无法支持的数据高可用和弹性扩缩容,以及社区的逐渐不活跃,越来越多的用户,开始迁移到云上的Trino/Spark + Hudi 技术栈,本文通过一个实际的例子,来看一下迁移过程中发生的代码的重构和数据的迁移。

一种使用 AWS 云原生服务部署高可用 APACHE AIRFLOW 集群的方案

对于需要在 AWS 上使用 Apache Airflow 但是 无法使用 AWS 托管服务 MWAA , 或者想使用特定 Apache Airflow 版本, 或者想定制 Apache Airflow 登陆、部署方式的用户,可以通过此方案搭建高可靠的 Apache Airflow 集群,同时提供用户登陆和鉴权机制。此方案已在全球知名 Tier One 汽车供应商的高级辅助驾驶系统(Advanced driver-assistance system, ADAS)开发平台成功应用。