Amazon EMR の開始方法

EMR の使用方法

1

データ処理アプリケーションを開発

Java、Hive (SQL に類似した言語)、Pig (データ処理言語)、Cascading、Ruby、Perl、Python、R、PHP、C++、Node.js を使用できます。Amazon EMR は、すぐに使用を開始できるよう、コードサンプルとチュートリアルを提供します。

2

アプリケーションとデータを Amazon S3 にアップロード

大量のデータをアップロードする場合は、AWS Import/Export Snowball (物理ストレージデバイスを使用してデータをアップロードするため) または AWS Direct Connect (データセンターから AWS への専用ネットワーク接続を確立するため) の使用をご検討ください。ご希望であれば、実行中のクラスターへ直接データを書き込むこともできます。

3

クラスターを設定および起動

AWS マネジメントコンソールAWS CLISDK、または API を使用して、クラスターにプロビジョニングする Amazon EC2 インスタンスの数、使用するインスタンスタイプ (スタンダード、ハイメモリ、ハイ CPU、ハイ I/O など)、インストールするアプリケーション (Apache Spark、Apache Hive、Apache HBase、Presto など)、およびアプリケーションとデータの場所を指定します。ブートストラップアクションを使用して、追加のソフトウェアをインストールしたり、デフォルト設定を変更したりできます。

4

クラスターをモニタリング

マネジメントコンソール、コマンドラインインターフェイス、SDK、または API を使用して、クラスターの健全性と進行状況をモニタリングできます。EMR は、モニタリング/警告のために Amazon CloudWatch と統合し、Ganglia などの一般的なモニタリングツールをサポートします。処理するデータの量に応じて、クラスターのキャパシティの追加と削除をいつでも行うことができます。トラブルシューティングには、コンソールのシンプルなデバッグ GUI を使用できます。

5

出力を取得

クラスターの Amazon S3 または HDFS から出力を取得します。Amazon QuickSight、Tableau、MicroStrategy などのツールを使用してデータを視覚化します。Amazon EMR は処理完了後に自動的にクラスターを停止します。または、クラスターをそのままにしてさらに作業することもできます。

サンプルクラスターを起動してみましょう。

Amazon EMR マネジメントコンソールを使用してクラスターを起動するには、こちらをクリックしてください。サンプルデータでサンプルアプリケーションを実行する場合、[Create Cluster] ページで、[Advanced cluster configuration] に移動し、右上にある灰色の [Configure Sample Application] ボタンをクリックします。

トレーニングとヘルプ