Amazon EMR の Apache Hadoop

EMR での Apache Hadoop を使用すべき理由

Apache™ Hadoop® は、大規模データセットの効率的な処理に使用できるオープンソースのソフトウェアプロジェクトです。データの処理と保存を単独の大型コンピュータで行う代わりに、Hadoop では商用ハードウェアをクラスター化して、巨大なデータセットの分析を並列実行できます。

Hadoop エコシステムには多数のアプリケーションと実行エンジンが存在し、分析ワークロードのニーズに合わせてさまざまなツールが提供されています。 Amazon EMR では、完全に設定済みかつ伸縮自在な Amazon EC2 インスタンスクラスターを簡単に作成および管理できます。これらのクラスターでは、Hadoop と、Hadoop エコシステム内の他のアプリケーションを実行します。

Hadoop エコシステム内のアプリケーションとフレームワーク

Open all

Hadoop: 基本コンポーネント

Open all

Hadoop を Amazon EMR で運用する利点

Open all

Hadoop とビッグデータの関係

Hadoop は非常にスケーラブルであるため、ビッグデータワークロードの処理に広く使用されています。Hadoop クラスターの処理能力を向上させるには、ニーズに対応するために必要な CPU とメモリを有するサーバーを追加します。

Hadoop では高いレベルの耐久性と可用性が実現されており、コンピューティング分析ワークロードを並列処理することも可能です。処理の可用性、耐久性、スケーラビリティによって、Hadoop はビッグデータワークロードに適したものとなっています。Amazon EMR を使用することで、数分で Hadoop が動作する Amazon EC2 インスタンスのクラスターを作成および設定でき、データから価値を引き出せるようになります。

ユースケース

Apache および Hadoop は Apache Software Foundation の登録商標です。