Amazon EMR 上的 Apache Hadoop

Apache™ Hadoop® 是一个开源软件项目，可用于高效地处理大数据集。利用 Hadoop，可以将商用硬件组成集群以便并行分析海量数据集，而不必使用一台大型计算机处理和存储数据。

Hadoop 生态系统中具有大量应用程序和执行引擎，提供了多种可满足您的分析工作负载需求的工具。借助 Amazon EMR，可以轻松创建和管理由 Amazo EC2 实例组成的配置完整的弹性集群，这些实例运行 Hadoop 及 Hadoop 生态系统中其他应用程序。

Hadoop 生态系统中的应用程序和框架

Hadoop 通常是指实际的 Apache Hadoop 项目，其中包括 MapReduce（执行框架）、YARN（资源管理器）和 HDFS（分布式存储）。Amazon EMR 还包括 EMRFS，这是一种连接器，允许 Hadoop 将 Amazon S3 作为存储层使用。

此外，Hadoop 生态系统中还具有其他应用程序和框架，其中包括可实现低延迟查询的工具、用于执行交互式查询的 GUI、各种接口（如 SQL），以及分布式 NoSQL 数据库。Hadoop 生态系统包含许多开源工具，这些工具专门用于在 Hadoop 核心组件上构建附加功能，您可以使用 Amazon EMR 在您的集群上轻松安装和配置各种工具，如 Hive、Pig、Hue、Ganglia、Oozie 和 HBase。除了运行 Amazon EMR 上的 Hadoop 之外，您还可以运行其他框架，如用于执行内存中处理的 Apache Spark 或适用于交互式 SQL 的 Presto。

Hadoop：基本组件

Amazon EMR 以编程方式跨集群节点安装和配置 Hadoop 项目中的应用程序，其中包括 Hadoop MapReduce、YARN 和 HDFS。您还可以选择安装其他应用程序，如 Hive 和 Pig。

使用 Hadoop MapReduce 和 YARN 进行处理

Hadoop MapReduce 是 Hadoop 中的执行引擎，它使用 MapReduce 框架处理工作负载，而 MapReduce 框架将任务拆分为更小的工作单元，以便将其分配到 Amazon EMR 集群中的各个节点上。由于集群中的任何给定虚拟机随时都有可能会发生故障，因此 Hadoop MapReduce 本身设计有容错功能。如果运行任务的服务器发生故障，Hadoop 会在另一台虚拟机上重新运行该任务，直至完成。

您可以使用 Java 编写 MapReduce 程序，也可以使用 Hadoop Streaming 以并行方式执行自定义脚本、使用 Hive 和 Pig（如果您选择在 Amazon EMR 集群上安装这些应用程序）实现比 MapReduce 更高的抽象级别，或使用其他工具与 Hadoop 进行交互。

首先来看一下 Hadoop 2，其资源由 Yet Another Resource Negotiator (YARN) 管理。YARN 可跟踪集群中的所有资源，并确保动态分配这些资源以便完成所处理作业中的任务。YARN 能够管理 Hadoop MapReduce 工作负载和其他分布式框架（如 Apache Spark、Apache Tez 等等）。

利用 Amazon S3 和 EMRFS 进行存储

通过使用 Amazon EMR 集群上的 EMR 文件系统 (EMRFS)，您可以将 Amazon S3 用作 Hadoop 中的数据层。Amazon S3 高度可扩展、成本低廉且持久耐用，是适合用于执行大数据处理的优良数据存储。通过将数据存储在 Amazon S3 中，您可以将计算层与存储层分离，从而可以根据工作负载所需的 CPU 和内存量调整您的 Amazon EMR 集群的大小，而不必为了最大限度地增加集群存储空间而在集群中部署额外的节点。此外，您可以在数据仍旧保留在 Amazon S3 中的情况下终止处于空闲状态的 Amazon EMR 集群以节省成本。

EMRFS 针对 Hadoop 进行了优化，可直接以并行方式对 Amazon S3 执行高性能读写操作，并且可以处理使用 Amazon S3 服务器端和客户端加密功能进行加密的对象。利用 EMRFS，可以将 Amazon S3 作为数据湖使用，并且 Amazon EMR 中的 Hadoop 可以作为弹性查询层使用。