Amazon EMR の開始方法

Amazon EMR

EMR の使用方法

1.データ処理アプリケーションを開発

Java、Hive (SQL に類似した言語)、Pig (データ処理言語)、Cascading、Ruby、Perl、Python、R、PHP、C++、Node.js を使用できます。Amazon EMR には、すぐに使い始めるためのコードサンプルとチュートリアルが用意されています。

2.アプリケーションとデータを Amazon S3 にアップロード

大量のデータをアップロードする場合は、AWS Import/Export Snowball (物理ストレージデバイスを使用してデータをアップロードするため) または AWS Direct Connect (データセンターから AWS への専用ネットワーク接続を確立するため) の使用をご検討ください。ご希望であれば、実行中のクラスターへ直接データを書き込むこともできます。

3.クラスターを設定および起動

AWS マネジメントコンソール、AWS CLI、SDK、または API を使用して、クラスターにプロビジョニングする Amazon EC2 インスタンスの数、使用するインスタンスタイプ (スタンダード、ハイメモリ、ハイ CPU、ハイ I/O など)、インストールするアプリケーション (Apache Spark、Apache Hive、Apache HBase、Presto など)、およびアプリケーションとデータの場所を指定します。ブートストラップアクションを使用して、追加のソフトウェアをインストールしたり、デフォルト設定を変更したりできます。

4.クラスターをモニタリング

マネジメントコンソール、コマンドラインインターフェイス、SDK、または API を使用して、クラスターの健全性と進行状況をモニタリングできます。EMR は、モニタリング/警告のために Amazon CloudWatch と統合し、Ganglia などの一般的なモニタリングツールをサポートします。処理するデータの量に応じて、クラスターのキャパシティの追加と削除をいつでも行うことができます。トラブルシューティングには、コンソールのシンプルなデバッグ GUI を使用できます。

5.出力を取得

クラスターの Amazon S3 または HDFS から出力を取得します。Amazon QuickSight、Tableau、MicroStrategy などのツールを使用してデータを視覚化します。Amazon EMR は処理完了後に自動的にクラスターを停止します。または、クラスターをそのままにしてさらに作業することもできます。

サンプルクラスターを起動してみましょう。

Amazon EMR マネジメントコンソールを使用してクラスターを起動するには、こちらをクリックしてください。サンプルデータでサンプルアプリケーションを実行する場合、[Create Cluster] ページで、[Advanced cluster configuration] に移動し、右上にある灰色の [Configure Sample Application] ボタンをクリックします。

詳細

AWS のウェビナーで最新情報を入手しましょう

動画

Amazon EMR の技術紹介 (50:44)

動画を見る

動画

Amazon EMR の詳細とベストプラクティス (49:12)

動画を見る

詳細

その他のチュートリアルを使用して、自分のペースで学びましょう

チュートリアル

Real-time stream processing using Apache Spark streaming and Apache Kafka on AWS

この記事では、EC2 で Apache Kafka を設定する方法、EMR で Spark Streaming を使用して Apache Kafka トピックに着信するデータを処理する方法、EMR での Spark SQL を使用してストリーミングデータのクエリを実行する方法を示しています。

ブログを読む

Large-scale machine learning with Spark on Amazon EMR

Intent Media において、Spark と Amazon EMR がモデルワークフローでどのように使用されたかをご確認ください。

ブログを読む

Phoenix と HBase による、低遅延の SQL および二次インデックス

JDBC を使用して Phoenix に接続する方法、既存の HBase テーブルのビューを作成する方法、および読み取りパフォーマンスを改善するためのセカンダリインデックスを作成する方法をご覧ください。

ブログを読む

NoSQL と分析ワークロード用の Hive を搭載した HBase を使用する

HBase を使用して EMR クラスターを起動し、Amazon S3 のスナップショットからテーブルを復元する方法を学ぶ

ブログを読む

Presto と Airpal を使用して Amazon EMR クラスターを起動する

Presto クラスタを設定する方法、および Airpal を使用して S3 に保存したデータを処理する方法を学びます。

ブログを読む

NoSQL と分析ワークロード用の Hive を搭載した HBase を使用する

HBase を使用して EMR クラスターを起動し、Amazon S3 のスナップショットからテーブルを復元する方法を学ぶ

ブログを読む

Process and analyze big data using Hive on Amazon EMR and MicroStrategy Suite

Amazon Elastic MapReduce 上で実行する Hive ジョブフローに接続して、レポート用および分析用の安全かつ拡張可能なプラットフォームを作成する方法を学びます。

記事を読む

Build a real-time stream processing pipeline with Apache Flink on AWS

このチュートリアルでは、Amazon EMR、Amazon Kinesis、Amazon Elasticsearch Service を使用し、Apache Flink をベースとする、安定したスケーラブルで信頼性の高いストリーム処理パイプラインのリファレンスアーキテクチャについて概説します。

ブログを読む

トレーニングとヘルプ

概念実証の構築や EMR アプリケーションのチューニングでお困りですか? AWS には、EMR 専門のグローバルサポートチームがあります。短期 (2～6 週間) 有料サポート契約の詳細については、お問い合わせください。

Big Data on AWS コースは、ビッグデータワークロードのために Amazon Web Services を利用する方法をハンズオンエクスペリエンスで学習できるように計画されています。AWS では、Amazon EMR ジョブを実行して Pig や Hive などの幅広い Hadoop ツールを使用してデータを処理する方法を紹介します。また、Amazon DynamoDB と Amazon Redshift を利用してクラウドにビッグデータ環境を作成し、Amazon Kinesis の利点を理解し、分析、セキュリティ、費用対効果のためにビッグデータ環境を設計できるようにベストプラクティスを活用する方法を紹介します。ビッグデータコースの詳細については、こちらをクリックしてください。

Scale Unlimited では、EMR などのビッグデータ技術の使い方を短期間で習得したいお客様に合わせてカスタマイズした、企業向けオンサイトトレーニングを提供しています。詳細については、こちらをクリックしてください。

その他のリソース

AWS とつながり続ける

次のステップ

開始方法

開始方法のチュートリアル

詳細

リソース

Amazon EMR リソースに関する詳細

リソースのページにアクセスする

無料利用枠

無料のアカウントにサインアップする

サインアップ

コンソール

構築の準備はできましたか?

Amazon EMR の使用を開始する

Amazon EMR の開始方法

EMR の使用方法

1.データ処理アプリケーションを開発

2.アプリケーションとデータを Amazon S3 にアップロード

3.クラスターを設定および起動

4.クラスターをモニタリング

5.出力を取得

サンプルクラスターを起動してみましょう。

詳細

動画

Amazon EMR の技術紹介 (50:44)

Amazon EMR の詳細とベストプラクティス (49:12)

詳細

チュートリアル

Real-time stream processing using Apache Spark streaming and Apache Kafka on AWS

Large-scale machine learning with Spark on Amazon EMR

Phoenix と HBase による、低遅延の SQL および二次インデックス

NoSQL と分析ワークロード用の Hive を搭載した HBase を使用する

Presto と Airpal を使用して Amazon EMR クラスターを起動する

NoSQL と分析ワークロード用の Hive を搭載した HBase を使用する

Process and analyze big data using Hive on Amazon EMR and MicroStrategy Suite

Build a real-time stream processing pipeline with Apache Flink on AWS

トレーニングとヘルプ

短期契約

AWS ビッグデータトレーニング

追加のトレーニング

その他のリソース

ビッグデータブログ

機械学習ブログ

ドキュメント

よくある質問

記事とチュートリアル

AWS クラウドエコノミクスセンター

AWS 料金計算ツール

AWS Trusted Advisor

AWS サポートのプラン

次のステップ

開始方法のチュートリアル

Amazon EMR リソースに関する詳細

無料のアカウントにサインアップする

構築の準備はできましたか?

学ぶ

リソース

デベロッパー

ヘルプ