亚马逊AWS官方博客
Tag: open-sourse
在 Amazon EMR 中利用 Alluxio 的分层存储架构
在本文中,我们将分享由于HDFS和S3的不同特点带来的挑战,基于对象存储的分析型工作负载的期望,以及Alluxio与EMR如何解决这些挑战,实现这些期望。
5分钟快速上手 – 通过EMR引导脚本部署Alluxio并运行Spark任务
Apache Hadoop和Spark给大数据计算带来了重大革新,而AWS EMR为按需运行集群以处理计算工作负载提供了很好的选择,它管理各种Hadoop服务的部署,并提供挂钩对这些服务进行自定义开发。Alluxio是一个开源的基于内存的分布式存储系统,现在成为开源社区中成长最快的大数据开源项目之一。Alluxio可以运行在EMR上,在EMRFS之上当前提供功能特性。 除了缓存带来的性能优势之外,Alluxio还使用户能够针对on-premise存储或甚至不同的云提供商存储运行计算工作负载。在本文中,我们将通过AWS CLI快速通过Alluxio引导EMR,并运行PySpark进行文档内容筛选。