Amazon EMR 上的 Apache Hadoop

Apache™ Hadoop® 是一個開放原始碼軟體專案，可以有效率地處理大型資料集。Hadoop 不使用單一大型電腦來處理和存放資料，而是將商用硬體結合成叢集，以平行方式分析大量資料集。

Hadoop 生態系統提供能滿足您分析工作負載需求的各種應用程式和執行引擎。針對執行 Hadoop 及 Hadoop 生態系統中其他應用程式的 Amazon EC2 執行個體，Amazon EMR 可讓您輕鬆建立和管理這些執行個體完全設定好的彈性叢集。

Hadoop 生態系統中的應用程式和框架

Hadoop 通常是指實際的 Apache Hadoop 專案，其中包括 MapReduce (執行框架)、YARN (資源管理員) 及 HDFS (分散式儲存)。Amazon EMR 也包含 EMRFS，這是允許 Hadoop 將 Amazon S3 作為儲存層的連接器。

然而，Hadoop 生態系統還提供其他應用程式和框架，包括可啟用低延遲查詢的工具、可進行互動式查詢的 GUI 與各種界面 (如 SQL)，以及分散式 NoSQL 資料庫。Hadoop 生態系統包括許多專門針對在 Hadoop 核心元件上建置其他功能所設計的開放原始碼工具，而您可以使用 Amazon EMR 輕鬆地在叢集上安裝和設定 Hive、Pig、Hue、Ganglia、Oozie 和 HBase 等工具。除了 Amazon EMR 上的 Hadoop 之外，您也可以執行其他框架，如用於記憶體內處理的 Apache Spark 或用於互動式 SQL 的 Presto。

Hadoop：基本元件

Amazon EMR 以程式設計方式在叢集的節點之間安裝和設定 Hadoop 專案中的應用程式，包括 Hadoop MapReduce、YARN 和 HDFS。您還可以選取其他應用程式 (如 Hive 和 Pig) 進行安裝。

使用 Hadoop MapReduce 和 YARN 進行處理

Hadoop MapReduce (Hadoop 中的一個執行引擎) 使用 MapReduce 框架來處理工作負載，它會將任務細分成更小的工作，可分發到 Amazon EMR 叢集中的各個節點。Hadoop MapReduce 引擎的建置原理是預期叢集中的任何特定機器都可能隨時故障，且旨在提供容錯能力。如果執行任務的伺服器故障，Hadoop 會在另一部機器重新執行該任務，直到完成為止。

您可以用 Java 撰寫 MapReduce 程式，也可以使用 Hadoop 串流以平行方式執行自訂指令碼、使用 Hive 和 Pig (如果您選擇在 Amazon EMR 叢集上安裝這些應用程式) 透過 MapReduce 獲得較高層級的抽象，或使用其他工具與 Hadoop 互動。

從 Hadoop 2 開始，資源管理是由 Yet Another Resource Negotiator (YARN) 負責管理。YARN 會追蹤叢集間的所有資源，並確保以動態方式分配這些資源，來完成您所處理的工作中的各項任務。YARN 能夠管理 Hadoop MapReduce 工作負載及其他分散式框架，如 Apache Spark、Apache Tez 等等。

使用 Amazon S3 和 EMRFS 的儲存

透過在 Amazon EMR 叢集使用 EMR 檔案系統 (EMRFS)，您可以利用 Amazon S3 作為 Hadoop 的資料層。Amazon S3 是高度可擴展、低成本且針對持久性所設計，因此成為大數據處理的絕佳資料存放區。將資料存放在 Amazon S3 即可去耦運算層與儲存層，讓您針對工作負載所需的 CPU 和記憶體的數量來調整 Amazon EMR 叢集的大小，而不是在叢集中建立額外的節點來最大化叢集上的儲存。此外，當 Amazon EMR 叢集閒置時可以終止它以節省成本，同時資料仍保留在 Amazon S3 中。

EMRFS 已針對 Hadoop 進行優化，可透過符合效能的方式直接平行讀取和寫入 Amazon S3，而且可以處理使用 Amazon S3 伺服器端和用戶端加密方法加密的物件。EMRFS 讓您使用 Amazon S3 作為資料湖，而 Amazon EMR 中的 Hadoop 可作為彈性查詢層。