亚马逊AWS官方博客
Tag: Amazon EMR
多库多表场景下使用Amazon EMR CDC实时入湖最佳实践
多库多表场景下使用Amazon EMR CDC实时入湖最佳实践
Read More使用 Amazon Athena、Amazon EMR 和 AWS Glue 构建 Apache Iceberg 数据湖
大多数企业将其关键数据存储在数据湖中,您可以将来自各种来源的数据存储到集中存储中。数据由专门的大数据计算引擎处理,例如用于交互式查询的 Amazon Athena、用于 Apache Spark 应用程序的 Amazon EMR、用于机器学习的 Amazon SageMaker 和用于数据可视化的 Amazon QuickSight。
Read More在Amazon EMR上构建实时数据湖
在 Amazon EMR 集群上,通过使用Flink, Spark 等服务与Hudi 集成,配合 Airflow, Amazon MSK 等服务可以轻松实现流式数据湖的构建,从而有效的减少了数据从产生到消费的数据延迟。同时借助 Amazon EMR 和 Amazon MSK, 消除了 Flink /Spark/Kafka 等基础服务运营开销,让这些服务开箱即用,从而使我们只要关心数据湖的构建以及湖上的数据处理
Read MoreAmazon EMR Hudi 性能调优——Clustering
Hudi作为Amazon EMR提供的智能湖仓的重要组件,已经得到越来越广泛的应用,Hudi在考虑到多种业务场景的同时,也对查询性能提供了很多的优化的方法,例如Index,Metadata Table, Clustering。本篇Blog介绍Hudi在查询方面做的性能优化的方法之一 —- Clustering, 通过介绍 Clustering的原理,操作,以及查询性能的对比,有助于读者理解Hudi Clustering, 并在实际开发中找到适合的场景。
Read More使用Hue玩转Amazon EMR(SparkSQL, Phoenix)和Amazon Redshift
本文主要帮助使用Amazon EMR的用户,通过Hue实现统一数仓平台开发工具,一方面集中管理数仓SQL开发任务,另一方面为其它部门提供自主分析的平台,对数仓建设有一定的推动作用。
Read MoreAmazon EMR Serverless 现全面推出 — 无需管理服务器即可运行大数据应用程序
今天,我们宣布正式全面推出 Amazon EMR Serverless,这是一种无服务器部署选项,客户可以使用 Apache Spark 和 Hive 等开源框架运行大数据分析应用程序,而无需配置、管理和扩展集群或服务器。
Read More借助EventBridge及Lambda 实现EMR 自动调整集群大小
EMR on EC2 Spot Instance 是大数据分析常用的成本优化的工具,借助此方案可以增加Spot申请成功概率,且在集群运维中减少人工干预,提升效率。
Read More基于OpenLDAP与Kerberos的Amazon EMR身份认证方案(三):基于SASL/GSSAPI深度集成
本系列文章将基于OpenLDAP和Kerberos给出完整的Amazon EMR身份认证解决方案,全系列由三篇文章组成,涵盖三个相对独立又紧密关联的子话题,方案会详细介绍使用到的技术原理同时给出完备的执行脚本用于实际环境的搭建。
Read More基于OpenLDAP与Kerberos的Amazon EMR身份认证方案(二):基于SSSD同步LDAP账号
本系列文章将基于OpenLDAP和Kerberos给出完整的Amazon EMR身份认证解决方案,全系列由三篇文章组成,涵盖三个相对独立又紧密关联的子话题,方案会详细介绍使用到的技术原理同时给出完备的执行脚本用于实际环境的搭建。
Read More基于OpenLDAP与Kerberos的Amazon EMR身份认证方案(一):整合后台数据库
本系列文章将基于OpenLDAP和Kerberos给出完整的Amazon EMR身份认证解决方案,全系列由三篇文章组成,涵盖三个相对独立又紧密关联的子话题,方案会详细介绍使用到的技术原理同时给出完备的执行脚本用于实际环境的搭建。
Read More