AWS クラウド
AWS クラウド
Amazon EMR の開始方法

Amazon EMR では、管理された Hadoop フレームワークが提供され、動的にスケーリング可能な Amazon EC2 インスタンスで大量のデータを、簡単、高速、高コスト効率な方法で処理できます。また、Apache Spark や HBase、Presto、Flink といった他の一般的なフレームワークを Amazon EMR で実行することや、Amazon S3 や Amazon DynamoDB といった他の AWS データストア内でデータを操作することもできます。

Amazon EMR は、ログの分析、ウェブインデックス、データ変換 (ETL)、機械学習、財務分析、科学シミュレーション、生物情報科学研究を含む、さまざまなビッグデータを確実かつ安全に処理します。

このサイトで動画を見るには、Adobe Flash Player または最新のブラウザが必要です。

amazon_emr_thumb_resize_prod_pg_378x171
6:03
Amazon EMR のご紹介

拡大イメージを見る

Amazon EMR リリース速度

Amazon EMR リリース速度

Amazon EMR のバージョニングリリースにより、EMR cluster で Apache Hadoop および Spark エコシステムのアプリケーションを含む最新のオープンソースプロジェクトを簡単に選択して使用できます。ソフトウェアのインストールと設定は Amazon EMR によって行われるため、インフラストラクチャや管理タスクを気にせずに、データの価値を高めることにより多くの時間をかけることができます。


使用が簡単

使用が簡単

Amazon EMR クラスターは数分で起動できます。ノードのプロビジョニング、クラスターのセットアップ、Hadoop の設定、クラスターのチューニングなど、わずらわしい作業は不要です。このような作業は Amazon EMR 側で実行されるため、お客様は分析に専念できます。

低コスト

低コスト

Amazon EMR の料金体系は予想がしやすくシンプル: 使用するインスタンスの時間ごとに 1 時間単位で料金を支払います。10 ノードの Hadoop クラスターの運用をわずか 0.15 USD/時間で開始できます。Amazon EMR は Amazon EC2 のスポットインスタンスとリザーブドインスタンスをネイティブサポートしているため、基盤となるインスタンスのコストを 50~-80% 節約することもできます。

伸縮自在性

伸縮自在性

Amazon EMR は、コンピューティングインスタンスを 1 つでも数百、数千でもプロビジョニングできるため、あらゆる規模のデータ処理に対応します。インスタンス数は簡単に手動で、または Auto Scaling で増減でき、お支払いは使った分のみの従量料金制です。

信頼性

信頼性

クラスターの調整やモニタリングにかかる労力も削減できます。Amazon EMR にはクラウド用の調整された Hadoop があり、クラスターをモニタリングして失敗したタスクを再試行し、自動的にパフォーマンスの低いインスタンスを置き換えます。

 

安全

安全

Amazon EMR は Amazon EC2 インスタンスへのネットワークアクセスを制御するファイアウォールの各種設定を自動的に構成します。また、お客様が定義する論理的に隔離されたネットワークである Amazon Virtual Private Cloud (VPC) 内にクラスターを起動することもできます。Amazon S3 に保存されたオブジェクトの場合、AWS Key Management Service またはカスタマー管理型のキーを使用して Amazon S3 サーバー側の暗号化または Amazon S3 クライアント側の暗号化と EMRFS を使用できます。

柔軟性

柔軟性

お客様がクラスターのすべてを制御することができます。また、各インスタンスへのルートアクセス権限を持つため、簡単にその他のアプリケーションを追加し、ブートストラップアクションを使用して、クラスターごとに設定をカスタマイズできます。カスタム Amazon Linux AMI を使用して、Amazon EMR クラスターを起動することもできます。 

クリックストリーム分析

クリックストリーム分析

Amazon EMR を使用すると、クリックストリームデータを分析してユーザーを区分し、ユーザーの好みを把握して、より効果的な広告を配信できます。    
    
Razorfish による EMR を使ったクリックストリームの分析事例の詳細 »

リアルタイム分析

リアルタイム分析

Amazon Kinesis、Apache Kafka またはその他のデータストリームからのリアルタイムデータを、Amazon EMR で Spark Streaming を使用して取り込み、処理します。ストリーミング分析を耐障害性のある方法で実行し、結果を Amazon S3 や HDFS に書き込みます。
Hearst による Spark Streaming の使用方法 »

ログ分析

ログ分析

Amazon EMR はウェブやモバイルアプリケーションで生成されたログの処理にも使用できます。Amazon EMR は、ペタバイト級の非構造化データや半構造化データからアプリケーションやユーザーに関する有益なインサイトを得るのに役立ちます。
Yelp が EMR を使用して主なウェブサイト機能を推進した方法 »

ETL

抽出、変換、読み込み (ETL)

Amazon EMR を使用すると、並べ替え、集計、結合などのデータ変換ワークロード (ETL) を大規模なデータセットですばやくコスト効率よく実行できます。
  
Redfin による ETL 用の一時的な EMR クラスターの使用方法 »

予測分析

予測分析

Amazon EMR での Apache Spark には、スケーラブルな機械学習アルゴリズムに対応する MLlib が含まれています。独自のライブラリを使用することも可能です。Spark では、データセットをメモリ内に保存すると、一般的な機械学習ワークロードのパフォーマンスが向上します。
Intent Media による Spark MLib の使用方法 »

ゲノミクス

ゲノミクス

Amazon EMR では、膨大な量のゲノミクスデータや、その他の大量の科学データセットをすばやく効率的に処理することもできます。研究者は AWS で無料でホストされているゲノミクスデータにアクセスできます。
Apache Spark と個別化医療の詳細 »

Amazon EMR は簡単に使用を開始できます。ファースト ステップ ガイドに従って、数回クリックするだけで最初の Amazon EMR クラスターを起動し、データの分析を開始できます。

 

使用を開始する