Amazon EMR

轻松运行和扩展 Apache Spark、Hadoop、HBase、Presto、Hive 以及其他大数据框架

Amazon EMR 是业界领先的原生云大数据平台,允许团队快速处理海量数据,并且具有规模成本效益。使用 Apache Spark、Apache Hive、Apache HBaseApache FlinkPresto 等开源工具,结合 Amazon EC2 的动态可扩展性和 Amazon S3 的可扩展存储,EMR 为分析团队提供了运行 PB 级分析的引擎和弹性,而成本仅为传统本地集群的一小部分。开发人员和分析人员可以使用基于 Jupyter 的 EMR Notebooks 进行迭代开发和协作,并可以访问跨 AWS 数据产品(如 Amazon S3、Amazon DynamoDBAmazon Redshift)存储的数据,从而缩短深入分析和快速操作分析的时间。

来自许多行业的客户借助 EMR 来安全可靠地处理大量的大数据使用案例,包括机器学习、数据转换 (ETL)、财务和科学模拟、生物信息学、日志分析和深度学习。EMR 让团队可以灵活地在单一用途的短期集群上运行使用案例,这些集群可以自动扩展以满足需求,或者使用新的多主部署模式在长期运行的高可用集群上运行使用案例。 

Amazon EMR 简介 (3:00)

优势

易于使用

EMR 可以在数分钟内启动集群。您不必担心节点预置、基础设施设置、Hadoop 配置或集群优化。EMR 自会处理这些任务,让您可以集中精力进行分析。分析师、数据工程师和数据科学家可以使用 EMR Notebooks 在几秒钟内启动一个无服务器的 Jupyter Notebook,让个人和团队可以通过一种易于使用的笔记本格式进行协作、交互式探索,以及处理和直观呈现数据。

成本低廉

EMR 的定价简单且可预测:您按每个实例费率为使用的每秒时间付费,最低按一分钟收取。您可以按低至每小时 0.15 USD 的价格,使用 Apache Spark 和 Apache Hive 等应用程序启动 10 节点 EMR 集群。EMR 原生支持 Amazon EC2 Spot 实例和预留实例,因此您还可以节省 50-80% 的底层实例费用。

弹性

利用 EMR,您可以预置一个、数百个甚至数千个计算实例来处理任何规模的数据。可以手动增加或减少实例数量,也可以借助 Auto Scaling(Auto Scaling 根据使用率管理集群大小)来自动增加或减少实例的数量,并且您只需要按实际使用量付费。与本地集群要求严格的基础设施不同,EMR 可以将计算和持久性存储分离,使您能够独立对它们进行扩展。

可靠

用于优化和监控集群的时间将会更少。EMR 针对云进行了优化,它还会持续监控您的集群,重新尝试失败的任务,并自动替换性能不佳的实例。EMR 提供最新的稳定开源软件版本,因此您无需管理更新和修复错误,从而可以减少问题并轻松维护环境。由于拥有多个主节点,因此集群是高度可用的,并且可以在节点发生故障时自动进行故障转移。

安全

EMR 会自动配置 EC2 防火墙设置以控制实例的网络访问权限,并且您可以在 Amazon Virtual Private Cloud (VPC)(由您定义的逻辑隔离的网络)中启动集群。对于 S3 中存储的对象,您可以通过 AWS Key Management Service 或您自己的客户管理的密钥将服务器端加密客户端加密与 EMRFS(S3 上的 Hadoop 对象存储)一起使用。EMR 可以轻松启用其他加密选项(如传输中加密、静态加密和 Kerberos 强身份验证)。

灵活

您可以完全掌控您的集群。您拥有每个实例的根访问权限,因此,您可以轻松安装额外的应用程序,并使用引导操作自定义每个集群。您还可以使用自定义 Amazon Linux AMI 启动 EMR 集群,并动态重新配置运行中的集群,而不需要重新启动集群。

使用案例

机器学习

使用 EMR 的内置机器学习工具(包括 Apache Spark MLlib、TensorFlow 和 Apache MXNet)来实现可扩展的机器学习算法,并使用自定义 AMI 和引导操作来轻松添加首选库和工具,以创建您自己的预测分析工具集。

了解 Intent Media 如何使用 Spark MLib »

提取、转换、加载 (ETL)

EMR 可用于在大型数据集上快速且经济高效地执行数据转换工作负载 (ETL),例如分类、聚合和合并。

了解 Redfin 如何使用临时 EMR 集群进行 ETL »

点击流分析

使用 Apache Spark 和 Apache Hive 分析来自 Amazon S3 的点击流数据,以便细分用户、了解各种用户偏好,并投放更有效的广告。

了解 Razorfish 如何使用 EMR 来进行点击流分析 »

实时流式处理

使用 Apache Spark Streaming 和 EMR 实时分析来自 Apache Kafka、Amazon Kinesis 或其他流式数据源的事件,以创建长期运行、高度可用且具有容错能力的流式数据管道。将转换后的数据集保留到 Amazon S3 或 HDFS,并将见解保留到 Amazon Elasticsearch。

了解 Hearst 如何使用 Spark Streaming »

交互式分析

EMR Notebooks 提供基于开源 Jupyter 的托管分析环境,可供数据科学家、分析师和开发人员准备并直观呈现数据、与同伴协作、构建应用程序,并执行交互分析。

基因组学

EMR 可快速高效地处理大量基因数据及其他大型科学数据集。研究人员可以访问免费托管在 AWS 上的基因组数据。

了解 Apache Spark 和精密医学 »

案例研究

分析师研究

1

开始使用 AWS

Step 1 - Sign up for an AWS account

注册 AWS 账户

立即享受 AWS 免费套餐
icon2

通过 10 分钟教程来进行学习

通过 简单教程进行探讨和学习。
icon3

开始使用 AWS 进行构建

按照分步指南开始构建,帮助您启动 AWS 项目

将大数据从本地迁移到 AWS

阅读 Amazon EMR 迁移指南 申请现场 Amazon EMR 迁移研讨会

了解有关 Big Data on AWS 的更多信息

访问大数据博客