EMR | 亚马逊AWS官方博客

动态扩展 Amazon EMR 集群上的存储

在托管的 Apache Hadoop 环境（如 Amazon EMR 集群）中，当集群中的存储容量用满时，没有方便的办法处理该问题。出现这种情况的原因是，您设置了 Amazon Elastic Block Store (Amazon EBS) 卷，并在启动集群时配置了挂载点，因此很难在集群运行后修改存储容量。可行的解决方案通常有：向集群添加更多节点，将数据备份到数据湖，然后启动具有更高存储容量的新集群。如果占用存储的数据可舍弃，也可删除多余的数据。

在 Amazon EMR 中利用 Alluxio 的分层存储架构

在本文中，我们将分享由于HDFS和S3的不同特点带来的挑战，基于对象存储的分析型工作负载的期望，以及Alluxio与EMR如何解决这些挑战，实现这些期望。

5分钟快速上手 – 通过EMR引导脚本部署Alluxio并运行Spark任务

Apache Hadoop和Spark给大数据计算带来了重大革新，而AWS EMR为按需运行集群以处理计算工作负载提供了很好的选择，它管理各种Hadoop服务的部署，并提供挂钩对这些服务进行自定义开发。Alluxio是一个开源的基于内存的分布式存储系统，现在成为开源社区中成长最快的大数据开源项目之一。Alluxio可以运行在EMR上，在EMRFS之上当前提供功能特性。除了缓存带来的性能优势之外，Alluxio还使用户能够针对on-premise存储或甚至不同的云提供商存储运行计算工作负载。在本文中，我们将通过AWS CLI快速通过Alluxio引导EMR，并运行PySpark进行文档内容筛选。

亚马逊AWS官方博客

Tag: EMR

动态扩展 Amazon EMR 集群上的存储

在 Amazon EMR 中利用 Alluxio 的分层存储架构

5分钟快速上手 – 通过EMR引导脚本部署Alluxio并运行Spark任务

了解

资源

开发人员

帮助