Amazon EMR | 亚马逊AWS官方博客

Amazon EMR Hudi 性能调优——Clustering

Hudi作为Amazon EMR提供的智能湖仓的重要组件，已经得到越来越广泛的应用，Hudi在考虑到多种业务场景的同时，也对查询性能提供了很多的优化的方法，例如Index，Metadata Table, Clustering。本篇Blog介绍Hudi在查询方面做的性能优化的方法之一 —- Clustering, 通过介绍 Clustering的原理，操作，以及查询性能的对比，有助于读者理解Hudi Clustering, 并在实际开发中找到适合的场景。

使用Hue玩转Amazon EMR(SparkSQL, Phoenix)和Amazon Redshift

本文主要帮助使用Amazon EMR的用户，通过Hue实现统一数仓平台开发工具，一方面集中管理数仓SQL开发任务，另一方面为其它部门提供自主分析的平台，对数仓建设有一定的推动作用。

Amazon EMR Serverless 现全面推出 — 无需管理服务器即可运行大数据应用程序

今天，我们宣布正式全面推出 Amazon EMR Serverless，这是一种无服务器部署选项，客户可以使用 Apache Spark 和 Hive 等开源框架运行大数据分析应用程序，而无需配置、管理和扩展集群或服务器。

借助EventBridge及Lambda 实现EMR 自动调整集群大小

EMR on EC2 Spot Instance 是大数据分析常用的成本优化的工具，借助此方案可以增加Spot申请成功概率，且在集群运维中减少人工干预，提升效率。

基于OpenLDAP与Kerberos的Amazon EMR身份认证方案(三)：基于SASL/GSSAPI深度集成

本系列文章将基于OpenLDAP和Kerberos给出完整的Amazon EMR身份认证解决方案，全系列由三篇文章组成，涵盖三个相对独立又紧密关联的子话题，方案会详细介绍使用到的技术原理同时给出完备的执行脚本用于实际环境的搭建。

基于OpenLDAP与Kerberos的Amazon EMR身份认证方案(二)：基于SSSD同步LDAP账号

本系列文章将基于OpenLDAP和Kerberos给出完整的Amazon EMR身份认证解决方案，全系列由三篇文章组成，涵盖三个相对独立又紧密关联的子话题，方案会详细介绍使用到的技术原理同时给出完备的执行脚本用于实际环境的搭建。

基于OpenLDAP与Kerberos的Amazon EMR身份认证方案(一)：整合后台数据库

本系列文章将基于OpenLDAP和Kerberos给出完整的Amazon EMR身份认证解决方案，全系列由三篇文章组成，涵盖三个相对独立又紧密关联的子话题，方案会详细介绍使用到的技术原理同时给出完备的执行脚本用于实际环境的搭建。

Amazon EMR 上 Apache Hudi 0.9.0 提供的新功能

本博文介绍了Amazon EMR 支持新的Apache Hudi 0.9.0

从 Amazon EMR 和 AWS Glue 访问 Amazon S3 中数据的性能优化最佳实践

这篇文章介绍了使用 Amazon EMR 和 Amazon Glue 分析 Amazon S3 中数据时，实现所需性能扩展的最佳实践。我们重点强调了在 Amazon EMR 和 AWS Glue Spark 作业上针对 Apache Spark 进行优化。

使用 Amazon MSK、Apache Flink 和 Apache Hudi 实现流批一体的数据湖架构

这篇文章中，我们使用 Lambda 架构，介绍如何分析业务，以及如何以数据湖为本来形成流批一体的架构。

Tag: Amazon EMR