- 分析›
- Amazon EMR›
- 開始方法
Amazon EMR の開始方法
EMR の使用方法
1.データ処理アプリケーションを開発
Java、Hive (SQL に類似した言語)、Pig (データ処理言語)、Cascading、Ruby、Perl、Python、R、PHP、C++、Node.js を使用できます。Amazon EMR には、すぐに使い始めるためのコードサンプルとチュートリアルが用意されています。
2.アプリケーションとデータを Amazon S3 にアップロード
大量のデータをアップロードする場合は、AWS Import/Export Snowball (物理ストレージデバイスを使用してデータをアップロードするため) または AWS Direct Connect (データセンターから AWS への専用ネットワーク接続を確立するため) の使用をご検討ください。ご希望であれば、実行中のクラスターへ直接データを書き込むこともできます。
3.クラスターを設定および起動
AWS マネジメントコンソール、AWS CLI、SDK、または API を使用して、クラスターにプロビジョニングする Amazon EC2 インスタンスの数、使用するインスタンスタイプ (スタンダード、ハイメモリ、ハイ CPU、ハイ I/O など)、インストールするアプリケーション (Apache Spark、Apache Hive、Apache HBase、Presto など)、およびアプリケーションとデータの場所を指定します。ブートストラップアクションを使用して、追加のソフトウェアをインストールしたり、デフォルト設定を変更したりできます。
4.クラスターをモニタリング
マネジメントコンソール、コマンドラインインターフェイス、SDK、または API を使用して、クラスターの健全性と進行状況をモニタリングできます。EMR は、モニタリング/警告のために Amazon CloudWatch と統合し、Ganglia などの一般的なモニタリングツールをサポートします。処理するデータの量に応じて、クラスターのキャパシティの追加と削除をいつでも行うことができます。トラブルシューティングには、コンソールのシンプルなデバッグ GUI を使用できます。
5.出力を取得
クラスターの Amazon S3 または HDFS から出力を取得します。Amazon QuickSight、Tableau、MicroStrategy などのツールを使用してデータを視覚化します。Amazon EMR は処理完了後に自動的にクラスターを停止します。または、クラスターをそのままにしてさらに作業することもできます。
サンプルクラスターを起動してみましょう。
チュートリアル
トレーニングとヘルプ
Big Data on AWS コースは、ビッグデータワークロードのために Amazon Web Services を利用する方法をハンズオンエクスペリエンスで学習できるように計画されています。AWS では、Amazon EMR ジョブを実行して Pig や Hive などの幅広い Hadoop ツールを使用してデータを処理する方法を紹介します。また、Amazon DynamoDB と Amazon Redshift を利用してクラウドにビッグデータ環境を作成し、Amazon Kinesis の利点を理解し、分析、セキュリティ、費用対効果のためにビッグデータ環境を設計できるようにベストプラクティスを活用する方法を紹介します。ビッグデータコースの詳細については、こちらをクリックしてください。
Scale Unlimited では、EMR などのビッグデータ技術の使い方を短期間で習得したいお客様に合わせてカスタマイズした、企業向けオンサイトトレーニングを提供しています。詳細については、こちらをクリックしてください。