亚马逊AWS官方博客

Category: AWS Big Data

解决方案:如何在 Amazon EMR Serverless 上执行纯 SQL 文件?

长久已来,SQL 以其简单易用、开发效率高等优势一直是 ETL 的首选编程语言,但遗憾的是,Amazon EMR Serverless 未能针对执行 SQL 文件提供原生支持,这对于倚重纯 SQL 开发数仓或数据湖的用户来说并不友好。为此,我们专门开发了一组工具类,借助这组工具类,用户可以在 Amazon EMR Serverless 上直接执行 SQL 文件。

最佳实践:如何优雅地提交一个 Amazon EMR Serverless 作业?

自 Amazon EMR 推出 Serverless 形态以来,得益于开箱即用和零运维的优质特性,越来越多的 EMR 用户开始尝试 EMR Serverless。在使用过程中,一个常被提及的问题是:我们应该如何在 EMR Serverless 上提交 Spark/Hive 作业?本文我们将分享一些这方面的最佳实践,帮助大家以一种更优雅的方式使用这项服务。

使用 EMR Hue 整合 Apache Kyuubi 提升 Spark SQL 开发效率

Amazon EMR 是一种全托管的云端数据平台,用于处理和分析大数据集。它基于开源的 Apache Hadoop 和 Apache Spark 等大数据技术栈,提供了一系列易于使用的工具,可帮助用户在云端快速构建和管理大规模的数据处理和分析应用程序。本文通过介绍在 EMR 中安装、集成 Apache Kyuubi,帮助提升在 EMR 平台上使用 Hue 进行 Spark SQL 开发的效率。

使用 Amazon EMR Studio 探索 Apache Hudi 核心概念 (1) – File Layouts

本系列文章使用 Amazon EMR Notebook 对 Apache Hudi 核心概念展开深入的探索和介绍,利用 Notebook 提供的统一环境和上下文,我们可以非常生动地观察到 Hudi 的运行机制,并深刻体会到其背后的控制原理,这也正是本系列文章的写作灵感:我们希望借助 Notebook “探索,发现,思考,领悟”的思维模式,带领大家开启一段 Hudi 核心概念的探索之旅。

基于AWS云端数据质量治理解决方案

这篇博客介绍了基于AWS的全面数据质量解决方案DQ Key,此方案基于数据治理自上而下质量治理模型以及数据质量治理流程,从业务以及技术层面为客户提供数据质量从发现到治理的一整套完整解决方案。
Key Messages as Tag

从 Kudu 迁移到 Hudi

在构建本地数据中心的时候,出于Kudu良好的性能和兼备OLTP和OLAP的特性,以及对Impala SQL和Spark的支持,很多用户会选择Impala/Spark + Kudu的技术栈。但是由于Kudu对本地存储的依赖,导致无法支持的数据高可用和弹性扩缩容,以及社区的逐渐不活跃,越来越多的用户,开始迁移到云上的Trino/Spark + Hudi 技术栈,本文通过一个实际的例子,来看一下迁移过程中发生的代码的重构和数据的迁移。