亚马逊AWS官方博客

Tag: EMR

在 EMR 6.0.0 上利用 Hive LLAP 实现 Apache Hive 性能倍增

本文介绍了与原有Amazon EMR 5.29版本相比,在Amazon EMR 6.0.0上运行Hive所带来的性能改进。性能的显著提升有助于减少查询运行时间与执行成本。此外,我们还了解到如何将Hive LLAP与Amazon EMR 6.0.0配合使用、如何进行具体配置、如何使用LLAP监控器查看状态与指标,以及如何通过启用Hive LLAP实现进一步性能提升。未来我们还将发布关于更多新功能的更新内容与在Amazon EMR上运行Apache Hive的后续改进消息,敬请期待!

Read More

在 Amazon EMR 中使用 Apache Knox 实现边界安全

边界安全可帮助提升Apache Hadoop 集群的安全性,防止用户从集群外访问过程中带来的威胁。它与 Apache Hadoop 集群的 REST 和 HTTP 交互启用了单个的访问点的方式,简化了客户端与集群的交互。例如,在与启用 Kerberos 的集群上的服务进行交互之前,客户端应用程序必须先使用 Kinit 或 SPNEGO 获取 Kerberos tickets。在本文中,我们将逐步介绍如何设置 Apache Knox 以帮助 Amazon EMR 实现边界安全。

Read More

Amazon EMR 迁移指南

世界各地的企业逐渐认识到新型大数据处理和分析框架(如 Apache Hadoop 和 Apache Spark)的强大功能,但同时也发现在本地数据湖环境中运行这些技术面临着挑战。他们也对当前供应商的未来表示担忧。
为了解决这个问题,我们推出了 Amazon EMR 迁移指南(注:英文版首次出版于 2019 年 6 月,这是我们首次推出中文版)。 本文是一份全面的指南,旨在提供合理的技术建议,帮助客户规划如何从本地大数据部署迁移到 EMR。

Read More

动态扩展 Amazon EMR 集群上的存储

在托管的 Apache Hadoop 环境(如 Amazon EMR 集群)中,当集群中的存储容量用满时,没有方便的办法处理该问题。出现这种情况的原因是,您设置了 Amazon Elastic Block Store (Amazon EBS) 卷,并在启动集群时配置了挂载点,因此很难在集群运行后修改存储容量。可行的解决方案通常有:向集群添加更多节点,将数据备份到数据湖,然后启动具有更高存储容量的新集群。如果占用存储的数据可舍弃,也可删除多余的数据。

Read More

5分钟快速上手 – 通过EMR引导脚本部署Alluxio并运行Spark任务

Apache Hadoop和Spark给大数据计算带来了重大革新,而AWS EMR为按需运行集群以处理计算工作负载提供了很好的选择,它管理各种Hadoop服务的部署,并提供挂钩对这些服务进行自定义开发。Alluxio是一个开源的基于内存的分布式存储系统,现在成为开源社区中成长最快的大数据开源项目之一。Alluxio可以运行在EMR上,在EMRFS之上当前提供功能特性。 除了缓存带来的性能优势之外,Alluxio还使用户能够针对on-premise存储或甚至不同的云提供商存储运行计算工作负载。在本文中,我们将通过AWS CLI快速通过Alluxio引导EMR,并运行PySpark进行文档内容筛选。

Read More