亚马逊AWS官方博客
Category: AWS Big Data
解决方案:如何在 Amazon EMR Serverless 上执行纯 SQL 文件?
长久已来,SQL 以其简单易用、开发效率高等优势一直是 ETL 的首选编程语言,但遗憾的是,Amazon EMR Serverless 未能针对执行 SQL 文件提供原生支持,这对于倚重纯 SQL 开发数仓或数据湖的用户来说并不友好。为此,我们专门开发了一组工具类,借助这组工具类,用户可以在 Amazon EMR Serverless 上直接执行 SQL 文件。
基于无服务架构 Glue Data Quality 提升 ETL 流程中的数据质量
随着数据分析业务的发展,用户对在数据分析时,ETL 流程中的数据质量越来越关注。数据质量保障数据分析时保证数据价值的重要前提。越来越多的用户希望能通过自动化的方式,以及适合的工具来解决。本文主要介绍如何在 AWS Glue 中实现数据质量评估。
最佳实践:如何优雅地提交一个 Amazon EMR Serverless 作业?
自 Amazon EMR 推出 Serverless 形态以来,得益于开箱即用和零运维的优质特性,越来越多的 EMR 用户开始尝试 EMR Serverless。在使用过程中,一个常被提及的问题是:我们应该如何在 EMR Serverless 上提交 Spark/Hive 作业?本文我们将分享一些这方面的最佳实践,帮助大家以一种更优雅的方式使用这项服务。
使用 EMR Hue 整合 Apache Kyuubi 提升 Spark SQL 开发效率
Amazon EMR 是一种全托管的云端数据平台,用于处理和分析大数据集。它基于开源的 Apache Hadoop 和 Apache Spark 等大数据技术栈,提供了一系列易于使用的工具,可帮助用户在云端快速构建和管理大规模的数据处理和分析应用程序。本文通过介绍在 EMR 中安装、集成 Apache Kyuubi,帮助提升在 EMR 平台上使用 Hue 进行 Spark SQL 开发的效率。
使用 Amazon EMR Studio 探索 Apache Hudi 核心概念 (1) – File Layouts
本系列文章使用 Amazon EMR Notebook 对 Apache Hudi 核心概念展开深入的探索和介绍,利用 Notebook 提供的统一环境和上下文,我们可以非常生动地观察到 Hudi 的运行机制,并深刻体会到其背后的控制原理,这也正是本系列文章的写作灵感:我们希望借助 Notebook “探索,发现,思考,领悟”的思维模式,带领大家开启一段 Hudi 核心概念的探索之旅。
Amazon EMR HBase on S3 之二级索引、Thrift 和性能评测
本文从实战的角度,解释一下亚马逊云科技客户在选择使用 HBase on S3 的时候比较关心的两个问题,一个是如何把已有的 HBase on HDFS 迁移到 HBase on S3,并包含二级索引的迁移;另一个是 HBase on S3 的性能问题。
基于AWS云端数据质量治理解决方案
这篇博客介绍了基于AWS的全面数据质量解决方案DQ Key,此方案基于数据治理自上而下质量治理模型以及数据质量治理流程,从业务以及技术层面为客户提供数据质量从发现到治理的一整套完整解决方案。
Key Messages as Tag
基于Amazon CloudWatch 和Grafana 的云上资源监控与报警解决方案
本文将展现一种以Amazon CloudWatch监控的指标为数据源,Amazon EventBridge和AWS Lambda作为运维事件监控和行动触发的组件,Amazon SNS和Amazon SQS作为摄取云上运维事件的消息队列,Grafana作为运维主看板的轻量级解决方案。
从 Kudu 迁移到 Hudi
在构建本地数据中心的时候,出于Kudu良好的性能和兼备OLTP和OLAP的特性,以及对Impala SQL和Spark的支持,很多用户会选择Impala/Spark + Kudu的技术栈。但是由于Kudu对本地存储的依赖,导致无法支持的数据高可用和弹性扩缩容,以及社区的逐渐不活跃,越来越多的用户,开始迁移到云上的Trino/Spark + Hudi 技术栈,本文通过一个实际的例子,来看一下迁移过程中发生的代码的重构和数据的迁移。
使用AWS Glue在Amazon S3上构建数据湖实战
此文整体采用无服务器的架构,利用AWS Glue加载并转换应用日志和JDBC数据源,并以目标格式写到以S3构建的数据湖中,该技术可以有效的打通因为不同摄入/获取数据方式形成的数据孤岛,以数据为基石更好的帮助业务部门做业务决策。