「 Amazon EMR のご利用開始にあたって」

動画

Amazon EMR の技術紹介 (50:44)
Amazon EMR の詳細 & ベストプラクティス (49:12)

AWS オンラインセミナーで最新情報を入手できます。

Amazon EMR の使用方法

  1. データ処理アプリケーションを開発する。 Java、Hive (SQL に類似した言語)、Pig (データ処理言語)、Cascading、Ruby、Perl、Python、R、PHP、C++、Node.js を使用できます。Amazon EMR にはコードサンプルとチュートリアルが用意されており、すぐに使用を開始できます。
  2. アプリケーションとデータを Amazon S3 にアップロードする。 大量のデータをアップロードする場合は、AWS Import/Export Snowball (物理ストレージデバイスを使用したデータのアップロード) または AWS Direct Connect (データセンターから AWS への専用ネットワーク接続を確立) の使用を検討してください。ご希望であれば、実行中のクラスターへ直接データを書き込むこともできます。
  3. クラスターを設定および起動する。 AWS マネジメントコンソールAWS CLISDK、または API を使用して、クラスターに提供する Amazon EC2 インスタンスの数、使用するインスタンスタイプ (スタンダード、ハイメモリ、ハイ CPU、ハイ I/O など)、インストールするアプリケーション (Hive、Pig、HBase など)、アプリケーションとデータの場所を指定します。ブートストラップアクションを使用して、追加のソフトウェアのインストールやデフォルト設定の変更ができます。
  4. クラスターをモニタリングする (オプション) 。 マネジメントコンソール、コマンドラインインターフェイス、SDK、または API を使用して、クラスターの健全性と進行状況をモニタリングできます。EMR は Amazon CloudWatch と統合してモニタリング/警告を行い、Ganglia のような一般的なモニタリングツールをサポートしています。処理するデータの量に応じて、クラスターの能力の追加と削除はいつでも行うことができます。トラブルシューティングには、コンソールのシンプルなデバッグ GUI を使用できます。
  5. 出力を取得する。 クラスターの Amazon S3 または HDFS から出力を取得します。Tableau や MicroStrategy などのツールを使用してデータを視覚化します。Amazon EMR は処理完了後に自動的にクラスターを停止します。または、クラスターをそのままにしてさらに作業することもできます。

サンプルクラスターを起動してみましょう。

こちらをクリックし、Amazon EMR マネジメントコンソールを使用してクラスターを起動します。サンプルデータでサンプルアプリケーションを実行する場合、[Create Cluster] ページで、[Advanced cluster configuration] に移動し、右上にある灰色の [Configure Sample Application] ボタンをクリックします。

チュートリアル

Spark

この記事では、EC2 で Apache Kafka を設定する方法、EMR で Spark Streaming を使用して Apache Kafka トピックに投稿されるデータを処理する方法、EMR で Spark SQL を使用してストリーミングデータのクエリを実行する方法を示しています。

Intent Media が、Spark と Amazon EMR をモデルワークフローでどのように使用したかを学びましょう。

HBase

JDBC を使用して Phoenix に接続する方法、既存の HBase テーブルのビューを作成する方法、および読み取りパフォーマンスを向上させるための二次インデックスを作成する方法を学ぶ

HBase を使用して EMR クラスタを起動し、Amazon S3 のスナップショットからテーブルを復元する方法を学ぶ

Amazon Elastic MapReduce 上で実行する Hive ジョブフローに接続して、レポートおよび分析用の安全かつ拡張可能なプラットフォームを作成する方法を学びます。

Presto

Presto クラスタを設定する方法、およびAirpal を使用して S3 に保存したデータを処理する方法を学びます。

Hive

HBase を使用して EMR クラスタを起動し、Amazon S3 のスナップショットからテーブルを復元する方法を学ぶ

Amazon Elastic MapReduce 上で実行する Hive ジョブフローに接続して、レポートおよび分析用の安全かつ拡張可能なプラットフォームを作成する方法を学びます。

このチュートリアルでは、Amazon EMRAmazon Kinesis および Amazon Elasticsearch Service を使用して、Apache Flink に基づく安定したスケーラブルで信頼性の高いストリーム処理パイプラインの参照アーキテクチャについての概要を説明します。

その他のチュートリアルを使って、自分のペースで学びましょう。

トレーニングとヘルプ

短期契約

概念実証の構築や EMR アプリケーションのチューニングでお困りですか? AWS には、EMR 専門のグローバルサポートチームがあります。短期 (2 ~ 6 週間) 有料サポート契約の詳細については、お問い合わせください

AWS ビッグデータトレーニング

AWS のビッグデータコースは、ビッグデータの負荷処理にアマゾン ウェブ サービスを利用する方法を実践型の演習で学習できるように計画されています。AWS では、Amazon EMR ジョブを実行し、Pig や Hive のような Hadoop ツールの広範なエコシステムを利用してデータを処理する方法を紹介します。また、Amazon DynamoDB と Amazon Redshift を利用してクラウドにビッグデータ環境を作成し、Amazon Kinesis の利点を理解し、分析、セキュリティ、費用対効果のためにビッグデータ環境を設計できるようにベストプラクティスを活用する方法を紹介します。ビッグデータコースの詳細については、こちらをクリックしてください。

追加のトレーニング

Scale Unlimited では、EMR などのビッグデータ技術の使い方を短期間で習得したいお客様に合わせてカスタマイズした、企業向けオンサイトトレーニングを提供しています。詳細については、こちらをクリックしてください

Amazon EMR リソースに関する詳細

リソースのページにアクセスする
構築を始めましょう。
Amazon EMR の開始方法
ご不明な点がおありですか?
お問い合わせ