范斌 | 亚马逊AWS官方博客

在 Amazon EMR 中利用 Alluxio 的分层存储架构

在本文中，我们将分享由于HDFS和S3的不同特点带来的挑战，基于对象存储的分析型工作负载的期望，以及Alluxio与EMR如何解决这些挑战，实现这些期望。

5分钟快速上手 – 通过EMR引导脚本部署Alluxio并运行Spark任务

Apache Hadoop和Spark给大数据计算带来了重大革新，而AWS EMR为按需运行集群以处理计算工作负载提供了很好的选择，它管理各种Hadoop服务的部署，并提供挂钩对这些服务进行自定义开发。Alluxio是一个开源的基于内存的分布式存储系统，现在成为开源社区中成长最快的大数据开源项目之一。Alluxio可以运行在EMR上，在EMRFS之上当前提供功能特性。除了缓存带来的性能优势之外，Alluxio还使用户能够针对on-premise存储或甚至不同的云提供商存储运行计算工作负载。在本文中，我们将通过AWS CLI快速通过Alluxio引导EMR，并运行PySpark进行文档内容筛选。

亚马逊AWS官方博客

Tag: 范斌

在 Amazon EMR 中利用 Alluxio 的分层存储架构

5分钟快速上手 – 通过EMR引导脚本部署Alluxio并运行Spark任务

了解

资源

开发人员

帮助