亚马逊AWS官方博客
Category: Amazon EMR
使用JDWP远程debug Amazon EMR上离线&在线应用
在AWS的云上大数据服务平台Amazon EMR上,我们可以使用JAVA技术栈的JDWP技术,对Spark,Flink两大最流行的离线、实时计算框架应用,在on yarn的hadoop集群上进行远程debug,这样开发的小伙伴能快速调试和定位生产环境中遇到的各种问题,而不用下载业务数据并在本地,或者只能依赖输出日志去推断问题,简化整个业务敏捷开发的运维和调优
消除复杂性以提高业务绩效:Bridgewater Associates 如何在 AWS 上构建安全、可扩展且基于 Spark 的研究服务
Bridgewater 的核心使命是通过分析市场驱动因素来理解世界的运作方式,并将这种理解转化为高质量的投资组合,为我们的客户提供投资建议。在 Bridgewater Technology 内,我们努力使我们的研究人员在他们最擅长的领域尽可能提高工作效率:建立对全球市场的基本理解。这意味着不再需要处理底层 IT 基础设施,而是专注于构建和改进他们的投资理念。
Amazon EMR实战心得浅谈
EMR实战心得浅谈
利用Apache Iceberg在亚马逊云上构建准实时数仓
大数据处理技术现今已广泛应用于各个行业,为业务解决海量存储和海量分析的需求,在构建数据湖的过程中遇到的 1.T+0 的数据落地和处理问题 2.数据修正的成本问题,aws 的emr s3+iceberg能够很好解决。
Alluxio on Amazon EMR 集成实践
本文档介绍了Alluxio及在Amazon EMR上部署的整体架构,并修正了Alluxio社区与Amazon EMR上集成的方案,新增加了对EMR task实例组及多主的支持
使用 Amazon Athena、Amazon EMR 和 AWS Glue 构建 Apache Iceberg 数据湖
大多数企业将其关键数据存储在数据湖中,您可以将来自各种来源的数据存储到集中存储中。数据由专门的大数据计算引擎处理,例如用于交互式查询的 Amazon Athena、用于 Apache Spark 应用程序的 Amazon EMR、用于机器学习的 Amazon SageMaker 和用于数据可视化的 Amazon QuickSight。
EKS上有状态服务启用存储加密
在这个博客里我们针对EKS上有状态服务的数据保护安全需求,介绍了结合KMS服务,在EKS中如何使用StatefulSet、Snapshot Controller 的方式实现有状态服务的存储加密启用,该方式通过从底层存储解决数据加密存储及迁移,无需应用层介入数据迁移,从而简单有效解决了EKS上有状态服务的存储加密需求。
在Amazon EMR上构建实时数据湖
在 Amazon EMR 集群上,通过使用Flink, Spark 等服务与Hudi 集成,配合 Airflow, Amazon MSK 等服务可以轻松实现流式数据湖的构建,从而有效的减少了数据从产生到消费的数据延迟。同时借助 Amazon EMR 和 Amazon MSK, 消除了 Flink /Spark/Kafka 等基础服务运营开销,让这些服务开箱即用,从而使我们只要关心数据湖的构建以及湖上的数据处理
Amazon EMR Hudi 性能调优——Clustering
Hudi作为Amazon EMR提供的智能湖仓的重要组件,已经得到越来越广泛的应用,Hudi在考虑到多种业务场景的同时,也对查询性能提供了很多的优化的方法,例如Index,Metadata Table, Clustering。本篇Blog介绍Hudi在查询方面做的性能优化的方法之一 —- Clustering, 通过介绍 Clustering的原理,操作,以及查询性能的对比,有助于读者理解Hudi Clustering, 并在实际开发中找到适合的场景。
使用Hue玩转Amazon EMR(SparkSQL, Phoenix)和Amazon Redshift
本文主要帮助使用Amazon EMR的用户,通过Hue实现统一数仓平台开发工具,一方面集中管理数仓SQL开发任务,另一方面为其它部门提供自主分析的平台,对数仓建设有一定的推动作用。