Amazon EMR の Apache Hadoop

Apache™ Hadoop® は、大規模データセットの効率的な処理に使用できるオープンソースソフトウェアプロジェクトです。データの処理と保存を単独の大型コンピューターで行う代わりに、Hadoop では商用ハードウェアをクラスター化して、巨大なデータセットの分析を並列実行できます。

Hadoop エコシステムには多数のアプリケーションと実行エンジンが存在し、分析ワークロードのニーズに合わせてさまざまなツールが提供されています。Amazon EMR によって、すべて設定されて伸縮自在である Amazon EC2 インスタンスのクラスターを簡単に作成して管理できます。それは、Hadoop および Hadoop エコシステム内の他のアプリケーションを実行します。

Hadoop エコシステム内のアプリケーションとフレームワーク

Hadoop は、一般的に MapReduce (実行フレームワーク)、YARN (リソースマネージャー) および HDFS (分散ストレージ) を含む実際の Apache Hadoop プロジェクトを指します。Amazon EMR には、Hadoop からストレージレイヤーとして Amazon S3 を使用するためのコネクタである EMRFS も含まれています。

しかし、Hadoop エコシステムには、低レイテンシークエリを実現するツール、インタラクティブなクエリ実行のための GUI、SQL などのさまざまなインターフェイス、および分散型 NoSQL データベースといった他のアプリケーションやフレームワークも含まれています。Hadoop エコシステムには、Hadoop のコアコンポーネントに追加機能を構築するためにデザインされたオープンソースのツールが多数含まれており、Amazon EMR を使用することで、Hive、Pig、Hue、Ganglia、Oozie および HBase といったツールを簡単にクラスターにインストールして設定することが可能です。Hadoop に加えて、インメモリ処理用の Apache Spark や、インタラクティブ SQL 用の Presto といった他のフレームワークも Amazon EMR で実行できます。

Hadoop: 基本コンポーネント

Amazon EMR ではクラスターの各ノードについて、Hadoop MapReduce、YARN および HDFS といった Hadoop プロジェクト内のアプリケーションがプログラムでインストールされ、設定されます。Hive や Pig といった追加アプリケーションのインストールも選択できます。

Hadoop MapReduce および YARN による処理

Hadoop 内の実行エンジンである Hadoop MapReduce は、Amazon EMR クラスター内のノードに分散させられるように、ジョブを小さな作業に分割する MapReduce のフレームワークを使用してワークロードを処理します。Hadoop MapReduce エンジンは、クラスター内のどのマシンにも障害が発生する可能性を考慮に入れて構築されており、耐障害性のある設計になっています。タスクを実行中のあるサーバーに障害が発生すると、Hadoop はそのタスクが完了するまで、タスクを別のマシンで実行します。

MapReduce プログラムを Java で記述することができますし、Hadoop Streaming を使用したカスタムスクリプトの並列実行、Hive および Pig (Amazon EMR クラスターにこれらのアプリケーションをインストールするよう選択した場合) による MapReduce の高レベルの抽象化、または Hadoop と連携する他のツールも使用できます。

Hadoop 2 以降、リソース管理は Yet Another Resource Negotiator (YARN) によって管理されます。YARN によって、全クラスターのリソースすべてが追跡され、処理のジョブタスクを実行するためそれらのリソースが動的に割り当てられます。YARN によって、Hadoop MapReduce ワークロードを管理できるほか、Apache Spark、Apache Tez といったその他の分散型プラットフォームも管理できます。

Amazon S3 と EMRFS を使用したストレージ

Amazon EMR クラスターで EMR ファイルシステム (EMRFS) を使用することで、Hadoop のデータレイヤーとして Amazon S3 を活用できます。Amazon S3 は高度にスケーラブル、低コストで、かつ耐久性があるように設計されているため、ビッグデータ処理向けのデータストアとして非常に優れています。Amazon S3 にデータを保存することで、コンピューティングレイヤーとストレージレイヤーを分離させることができるため、クラスターのストレージを最大にするためにクラスターにノードを追加することなく、ワークロードに必要な CPU とメモリに合わせて Amazon EMR クラスターのサイズを設定できます。さらに、Amazon EMR クラスターがアイドルになった場合、終了させてコストを節減でき、この場合でもデータは Amazon S3 に残ります。

EMRFS は、Hadoop で Amazon S3 に並列で高パフォーマンスの読み書きが直接行えるよう最適化されており、Amazon S3 のサーバー側およびクライアント側暗号化で暗号化されたオブジェクトを処理できます。EMRFS では、Amazon S3 をデータレイクとして使用でき、Amazon EMR の Hadoop を伸縮自在なクエリレイヤーとして使用できます。