亚马逊AWS官方博客
Tag: EMR
自动驾驶数据湖(四):可视化
云上自动驾驶数据湖参考架构和落地实践。
使用Spline收集Spark数据血缘实践
本文会带您一步一步地在AWS上部署Spline,提供在Glue和EMR中实现Spark代码级别的血缘,并且结合开源数据湖架构Hudi和Delta Lake来提供批流入湖实例,本文会重点介绍如何使用Spline来捕获。
Amazon EMR之EMR和Hadoop的前世今生
讲解Hadoop的由来,以及为何会有Amazon EMR,它们之间的异同之处
自动驾驶数据湖(三):图像处理流程管道
云上自动驾驶数据湖参考架构和落地实践。
自动驾驶数据湖(二):图像处理和模型训练
云上自动驾驶数据湖参考架构和落地实践。
Amazon EC2 Spot 实例在AWS EMR 集群中的成本优化应用实践
业务数据的处理和分析通常需要比较大规模的EMR集群和更多的节点数来处理,本文介绍如何通过合理配置和使用Spot 实例类型来大幅降低EMR集群成本,特别对于跑特定任务的瞬时集群来说,Spot 实例的使用是特定的应用场景,如何选型和配置更是成本优化的关键之处。
Apache Atlas数据血缘
Atlas 是一套可伸缩且可扩展的数据治理服务,使企业能够有效和高效地满足其在 Hadoop 生态中的合规要求,并允许与整个企业数据生态系统集成。
在 EMR 6.0.0 上利用 Hive LLAP 实现 Apache Hive 性能倍增
本文介绍了与原有Amazon EMR 5.29版本相比,在Amazon EMR 6.0.0上运行Hive所带来的性能改进。性能的显著提升有助于减少查询运行时间与执行成本。此外,我们还了解到如何将Hive LLAP与Amazon EMR 6.0.0配合使用、如何进行具体配置、如何使用LLAP监控器查看状态与指标,以及如何通过启用Hive LLAP实现进一步性能提升。未来我们还将发布关于更多新功能的更新内容与在Amazon EMR上运行Apache Hive的后续改进消息,敬请期待!
在 Amazon EMR 中使用 Apache Knox 实现边界安全
边界安全可帮助提升Apache Hadoop 集群的安全性,防止用户从集群外访问过程中带来的威胁。它与 Apache Hadoop 集群的 REST 和 HTTP 交互启用了单个的访问点的方式,简化了客户端与集群的交互。例如,在与启用 Kerberos 的集群上的服务进行交互之前,客户端应用程序必须先使用 Kinit 或 SPNEGO 获取 Kerberos tickets。在本文中,我们将逐步介绍如何设置 Apache Knox 以帮助 Amazon EMR 实现边界安全。
Amazon EMR 迁移指南
世界各地的企业逐渐认识到新型大数据处理和分析框架(如 Apache Hadoop 和 Apache Spark)的强大功能,但同时也发现在本地数据湖环境中运行这些技术面临着挑战。他们也对当前供应商的未来表示担忧。
为了解决这个问题,我们推出了 Amazon EMR 迁移指南(注:英文版首次出版于 2019 年 6 月,这是我们首次推出中文版)。 本文是一份全面的指南,旨在提供合理的技术建议,帮助客户规划如何从本地大数据部署迁移到 EMR。