Amazon EMR

轻松运行和扩展 Apache Spark、Hive、Presto 以及其他大数据框架

Amazon EMR 是行业领先的云大数据平台,可使用多种开放源代码工具处理大量数据,例如 Apache SparkApache HiveApache HBaseApache FlinkApache HudiPresto。借助 EMR,您可以用不到传统本地解决方案一半的成本运行 PB 级分析,并且其速度比标准 Apache Spark 快 3 倍以上。对于短期运行的作业,您可以启动和关闭集群,并对使用的实例按秒支付费用。对于长期运行的工作负载,您可以创建能自动扩展高度可用的集群以满足需求。如果您拥有 Apache Spark 和 Apache Hive 等开源工具的现有本地部署,您还可以在 AWS Outposts 上运行 EMR 集群

了解如何通过将本地工作负载迁移到 EMR 来降低成本并简化操作

探索 Apache Hudi 如何简化变更数据捕获 (CDC) 和隐私法规的管道

Amazon EMR 简介 (3:00)

优势

易于使用

分析师、数据工程师和数据科学家可以使用 EMR Notebooks,让个人和团队可以轻松进行协作、交互式探索,以及处理和直观呈现数据。您可以简单地指定 EMR 应用程序的版本和要使用的计算类型。EMR 负责预置、配置和调整集群,以便您可以专注于运行分析。

成本低廉

EMR 的定价简单且可预测:您按每个实例费率为使用的每秒时间付费,最低按一分钟收取。您可以按低至每小时 0.15 USD 的价格启动一个 10 节点 EMR 集群。通过为临时工作负载选择 Amazon EC2 Spot、为长期工作负载选择预留实例,还可以将实例成本节省 50-80%。您还可以使用 Savings Plans

弹性

与本地集群要求严格的基础设施不同,EMR 可以将计算和存储分离,使您能够独立扩展每层并利用 Amazon S3 的分层存储。利用 EMR,您可以预置一个、数百个甚至数千个计算实例来处理任何规模的数据。可以借助 Auto Scaling(Auto Scaling 根据使用率管理集群大小)自动增加或减少实例的数量,并且您只需要按实际使用量付费。

可靠

用于优化和监控集群的时间将会更少。EMR 针对云进行了优化,它还会持续监控您的集群,重新尝试失败的任务,并自动替换性能不佳的实例。由于拥有多个主节点,因此集群是高度可用的,并且可以在节点发生故障时自动进行故障转移。EMR 提供最新的稳定开源软件版本,因此您无需管理更新和修复错误,这可以减少问题并让您轻松维护环境。

安全

EMR 会自动配置 EC2 防火墙设置以控制实例的网络访问权限,并且您可以在 Amazon Virtual Private Cloud (VPC) 中启动集群。服务器端加密客户端加密可与 AWS Key Management Service 或您自己的客户管理的密钥一起使用。EMR 可以轻松启用其他加密选项(如传输中加密、静态加密和 Kerberos 强身份验证)。您可以使用 AWS Lake Formation 或 Apache Ranger 对数据库、表和列应用精细数据访问控制。

灵活

通过对每个实例的根访问权限,您可以完全控制集群。您可以使用自定义 Amazon Linux AMI 启动 EMR 集群,并通过引导操作轻松安装其他应用程序。EMR 使您能够在运行中的集群上实时重新配置应用程序,而无需重新启动集群。此外,使用 Hadoop 3.0,您可以将库依赖项打包在 Docker 容器中,并随作业一起提交,以简化环境依赖项。

使用案例

机器学习

使用 EMR 的内置机器学习工具(包括 Apache Spark MLlib、TensorFlow 和 Apache MXNet)来实现可扩展的机器学习算法,并使用自定义 AMI 和引导操作来轻松添加首选库和工具,以创建您自己的预测分析工具集。

提取、转换、加载 (ETL)

EMR 可用于在大型数据集上快速且经济高效地执行数据转换工作负载 (ETL),例如分类、聚合和合并。

了解 Redfin 如何使用临时 EMR 集群进行 ETL »

点击流分析

使用 Apache Spark 和 Apache Hive 分析来自 Amazon S3 的点击流数据,以便细分用户、了解各种用户偏好,并投放更有效的广告。

实时流式处理

使用 Apache Spark Streaming 和 Apache Flink 实时分析来自 Apache Kafka、Amazon Kinesis 或其他流式数据源的事件,以在 EMR 上创建长期运行、高度可用且具有容错能力的流式数据管道。将转换后的数据集保留到 S3 或 HDFS,并将见解保留到 Amazon Elasticsearch Service。

了解 Hearst 如何使用 Spark Streaming »

交互式分析

EMR Notebooks 提供基于开源 Jupyter 的托管分析环境,可供数据科学家、分析师和开发人员准备并直观呈现数据、与同伴协作、构建应用程序,并执行交互分析。

基因组学

EMR 可快速高效地处理大量基因数据及其他大型科学数据集。研究人员可以访问免费托管在 AWS 上的基因组数据。

了解 Apache Spark 和精密医学 »

案例研究

分析师研究

更多…

新增内容

日期
  • 日期
1

开始使用 AWS

阅读 EMR 迁移指南
阅读迁移指南

了解如何将大数据从本地迁移到 AWS。

了解更多 
注册免费 AWS 账户
注册免费账户

立即享受 AWS 免费套餐。 

注册 
开始在控制台中使用 EMR 构建
开始在控制台中构建

开始在 AWS 控制台中使用 Amazon EMR 进行构建。

登录 

将大数据从本地迁移到 AWS

帮助您制定迁移计划的资源

详细了解 AWS 上的大数据和分析

阅读 AWS 大数据博客