Amazon EMR

Apache Spark、Hadoop、HBase、Presto、Hive、その他のビッグデータフレームワークを簡単に実行してスケーリング

Amazon EMR では、管理された Hadoop フレームワークが提供され、動的にスケーリング可能な Amazon EC2 インスタンスで、大量のデータを、簡単、高速、高コスト効率な方法で処理できます。また、Apache SparkHBasePrestoFlink といった他の一般的なフレームワークを Amazon EMR で実行することや、Amazon S3 や Amazon DynamoDB といった他の AWS データストア内でデータを操作することもできます。

Amazon EMR では、ログの分析、ウェブインデックス作成、データ変換 (ETL)、機械学習、財務分析、科学シミュレーション、バイオインフォマティクスを含む、さまざまなビッグデータのユースケースが確実かつ安全に処理されます。

Amazon EMR のご紹介 (3:06)

メリット

使いやすさ

Amazon EMR クラスターは数分で起動できます。ノードのプロビジョニング、クラスターのセットアップ、Hadoop の設定、クラスターのチューニングなど、わずらわしい作業は不要です。Amazon EMR がこのような作業を行いますので、お客様は分析に専念できます。

低コスト

Amazon EMR の料金体系は予想がしやすくシンプル: 1 秒ごとに課金され、最小課金時間は 1 分となっています。10 ノードの Hadoop クラスターの運用をわずか 0.15 USD/時間で開始できます。Amazon EMR は Amazon EC2 のスポットインスタンスとリザーブドインスタンスをネイティブサポートしているため、基盤となるインスタンスのコストを 50~80% 節約することもできます。

伸縮性

Amazon EMR は、コンピューティングインスタンスを、1 つでも、数百、数千でもプロビジョニングできるため、あらゆる規模のデータ処理に対応できます。インスタンス数は、手動や Auto Scaling を使って簡単に増減でき、お支払いは使った分のみの従量料金制です。

信頼性

クラスターの調整やモニタリングにかかる労力も削減できます。Amazon EMR にはクラウド用の調整された Hadoop があり、クラスターをモニタリングして失敗したタスクを再試行し、自動的にパフォーマンスの低いインスタンスを置き換えます。

安全性

Amazon EMR は、Amazon EC2 インスタンスへのネットワークアクセスを制御するファイアウォールの各種設定を自動的に構成します。また、お客様が定義する論理的に隔離されたネットワークである Amazon Virtual Private Cloud (VPC) 内にクラスターを起動することも可能です。Amazon S3 に保存されたオブジェクトの場合、AWS Key Management Service またはカスタマー管理型のキーを使用して Amazon S3 サーバー側の暗号化または Amazon S3 クライアント側の暗号化と EMRFS を使用できます。その他の暗号化オプションKerberos による認証も、簡単に有効化できます。

柔軟性

お客様がクラスターのすべてを制御することができます。各インスタンスへのルートアクセス権限をお客様が持つため、追加のアプリケーションを簡単にインストールすることができます。また、ブートストラップアクションを使用して、クラスターごとに設定をカスタマイズできます。カスタム Amazon Linux AMI を使用して、Amazon EMR クラスターを起動することもできます。

ユースケース

クリックストリーム分析

Amazon EMR を使用すると、クリックストリームデータを分析してユーザーを区分し、ユーザーの好みを把握して、より効果的な広告を配信できます。

Razorfish による EMR を使ったクリックストリームの分析事例の詳細 »

リアルタイム分析

Amazon Kinesis、Apache Kafka またはその他のデータストリームからのリアルタイムデータを、Amazon EMR で Spark Streaming を使用して取り込み、処理します。ストリーミング分析を耐障害性のある方法で実行し、結果を Amazon S3 や HDFS に書き込みます。

Hearst による Spark Streaming の使用方法 »

ログ分析

Amazon EMR はウェブやモバイルアプリケーションで生成されたログの処理にも使用できます。Amazon EMR を使用すると、ペタバイト級の非構造化データや半構造化データからアプリケーションやユーザーに関する有益な洞察を得ることが可能になります。

抽出、変換、読み込み (ETL)

Amazon EMR を使用すると、並べ替え、集計、結合などのデータ変換ワークロード (ETL) を大規模なデータセットですばやく、コスト効率よく実行できます。

Redfin による ETL 用の一時的な EMR クラスターの使用方法 »

予測分析

Amazon EMR での Apache Spark には、スケーラブルな機械学習アルゴリズムに対応する MLlib が含まれています。独自のライブラリを使用することも可能です。Spark では、データセットをメモリ内に保存すると、一般的な機械学習ワークロードのパフォーマンスが向上します。

Intent Media による Spark MLib の使用方法 »

ゲノミクス

Amazon EMR では、膨大な量のゲノミクスデータや、その他の大量の科学データセットをすばやく効率的に処理することもできます。研究者は AWS で無料でホストされているゲノミクスデータにアクセスできます。

Apache Spark と個別化医療の詳細 »

導入事例

AWS の開始方法

icon1

AWS アカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。
icon2

10 分間チュートリアルで学ぶ

簡単なチュートリアルで学習します。
icon3

AWS で構築を開始する

ステップバイステップガイドに従って構築を開始すれば、 AWS プロジェクトを立ち上げることができます。
構築の準備はできましたか?
Amazon EMR の開始方法
ご不明な点がおありですか?
お問い合わせ