動画: A Technical Introduction to Amazon EMR (AWS re:Invent、2015 年 10 月、50 分)

Amazon EMR では、Apache Hadoop、Apache Spark、および Presto などのデータ処理フレームワークを AWS で簡単にコスト効率よくセキュアに実行できるマネージド型のフレームワークが提供されます。このプレゼンテーションでは、クラウドでのこのフレームワーク実行の背後にある主要設計原理と、Amazon ERM が提供する機能を学習します。コンピューティングとストレージを非干渉化することによるメリット、そしてコストを削減しながらクラウドが提供するスケールと並列処理のメリットを利用する戦略について説明します。さらに、AOL の上級ソフトウェアエンジニアがこの戦略を使ってどのように Hadoop の作業負荷を AWS クラウドに移行したか、またその過程で学んだことについてお話を伺います。

 

動画: Amazon EMR, Deep Dive and Best Practices (AWS re:Invent、2015 年 10 月、49 分)

このプレゼンテーションでは、HDFS の代わりに Amazon S3 を使う、長期および短期アーカイブのクラスターのメリットの利用、およびその他の Amazon EMR アーキテクチャのベストプラクティスなど、Amazon EMR の設計パターンを紹介します。クラスターの動的なスケールアップやスケールダウンの仕方を説明し、クラスターの微調整方法を紹介します。また、ベストプラクティスを共有して、お客様の Amazon EMR クラスターで優れたコスト効率を維持します。 最後に、最近開始した機能をいくつか紹介して、最新機能を説明します。

  1. データ処理アプリケーションを開発する。Java、Hive (SQL に類似した言語)、Pig (データ処理言語)、Cascading、Ruby、Perl、Python、R、PHP、C++、Node.js を使用できます。Amazon EMR にはコードサンプルとチュートリアルが用意されており、すぐに使用を開始できます。
  2. アプリケーションとデータを Amazon S3 にアップロードする。大量のデータをアップロードする場合は、AWS Import/Export Snowball (物理ストレージデバイスを使用したデータのアップロード) または AWS Direct Connect (データセンターから AWS への専用ネットワーク接続を確立) の使用を検討してください。ご希望であれば、実行中のクラスターへ直接データを書き込むこともできます。
  3. クラスターを設定および起動する。AWS マネジメントコンソールAWS CLISDK、または API を使用して、クラスターに提供する Amazon EC2 インスタンスの数、使用するインスタンスタイプ (スタンダード、ハイメモリ、ハイ CPU、ハイ I/O など)、インストールするアプリケーション (Hive、Pig、HBase など)、アプリケーションとデータの場所を指定します。ブートストラップアクションを使用して、追加のソフトウェアのインストールやデフォルト設定の変更ができます。
  4. クラスターをモニタリングする (オプション)マネジメントコンソール、コマンドラインインターフェイス、SDK、または API を使用してクラスターの健全性と進行状況をモニタリングできます。EMR は Amazon CloudWatch と統合してモニタリング/警告を行い、Ganglia のような有名なモニタリングツールをサポートしています。処理するデータの量に応じて、クラスターの能力の追加と削除はいつでも行うことができます。トラブルシューティングには、コンソールのシンプルなデバッグ GUI を使用できます。
  5. 出力を取得する。クラスターの Amazon S3 または HDFS から出力を取得します。Tableau や MicroStrategy などのツールを使用してデータを視覚化します。Amazon EMR は処理完了後に自動的にクラスターを停止します。または、クラスターをそのままにしてさらに作業することもできます。

サンプルクラスターを起動してみましょう。

こちらをクリックし、Amazon EMR マネジメントコンソールを使用してクラスターを起動します。サンプルデータでサンプルアプリケーションを実行する場合、[Create Cluster] ページで、[Advanced cluster configuration] に移動し、右上にある灰色の [Configure Sample Application] ボタンをクリックします。

詳細な手順のチュートリアルについては、こちらをクリックしてください。このチュートリアルでは、テキストファイル内の単語の出現頻度をカウントするクラスターの作成手順を紹介します。

AWS を無料でお試しください

まずは無料で始める »
またはコンソールにサインイン

大規模なデータ処理要件がある場合は、割引料金が適用される可能性があります。

詳細については、お問い合わせください。

日本担当チームへお問い合わせ »
thumb_intro_series_emr

Amazon Elastic MapReduce (EMR) 入門

この動画では、Amazon Elastic MapReduce について説明し、AWS マネジメントコンソールを使用して Amazon EMR クラスターを起動する方法を、順を追って解説します。デモを見てから、無料のセルフペースラボで実際に Amazon EMR クラスターの起動を実習します。


概念実証の構築や EMR アプリケーションのチューニングでお困りですか?AWS には、EMR 専門のグローバルサポートチームがあります。短期(2~6 週間)有料サポート契約の詳細については、お問い合わせください

AWS のビッグデータコースは、ビッグデータの負荷処理にアマゾン ウェブ サービスを利用する方法を実践型の演習で学習できるように計画されています。AWS では、Amazon Elastic MapReduce ジョブを実行し、Pig や Hive のような Hadoop ツールの広範なエコシステムを利用してデータを処理する方法を紹介します。また、Amazon DynamoDB と Amazon Redshift を利用してクラウドにビッグデータ環境を作成し、Amazon Kinesis の利点を理解し、分析、セキュリティ、費用対効果のためにビッグデータ環境を設計できるようにベストプラクティスを活用する方法を紹介します。 ビッグデータコースの詳細については、こちらをクリックしてください。

1 TB/日を超えるデータ処理の計画がおありでしたら、EMR Bootcamp に参加できる可能性があります。このキャンプは、EMR の専門家である AWS ソリューションアーキテクトによるオンサイトの実演と講義からなるワークショップです。 詳細については、こちらをクリックするか、お問い合わせください

Scale Unlimited では、EMR などのビッグデータ技術の使い方を短期間で習得したいお客様に合わせてカスタマイズした、企業向けオンサイトトレーニングを提供しています。 詳細については、こちらをクリックしてください。