Amazon EMR

Apache Spark、Hadoop、HBase、Presto、Hive、その他のビッグデータフレームワークを簡単に実行してスケーリング

Amazon EMR では、管理された Hadoop フレームワークが提供され、動的にスケーリング可能な Amazon EC2 インスタンスで、大量のデータを、簡単、高速、高コスト効率な方法で処理できます。また、Apache SparkHBasePrestoFlink といった他の一般的なフレームワークを Amazon EMR で実行することや、Amazon S3 や Amazon DynamoDB といった他の AWS データストア内でデータを操作することもできます。大衆に普及しているJupyter Notebookに基づき、EMR Notebookは 特別なクエリおよび 試験的分析のための開発および共同研究を行う環境を提供します。

Amazon EMR では、ログの分析、ウェブインデックス作成、データ変換 (ETL)、機械学習、財務分析、科学シミュレーション、バイオインフォマティクスを含む、さまざまなビッグデータのユースケースが確実かつ安全に処理されます。

Amazon EMR (3:00)のご紹介

利点

使いやすさ

EMR クラスターは数分で起動できます。ノードのプロビジョニング、クラスターのセットアップ、Hadoop の設定、クラスターのチューニングなど、わずらわしい作業は不要です。こうした作業はEMR 側で実行されるため、お客様は分析に専念できます。データサイエンティスト、開発者および分析者も、Jupyter Notebookに基づいた、管理された環境であるEMR Notebookを使用して、アプリケーションの開発および仲間との共同作業ができます。

低コスト

EMR の料金体系は予想がしやすくシンプル: 1 秒ごとに課金され、最小課金時間は 1 分となっています。Hadoop, Spark,および Hiveなどのアプリケーションを使用して、10ノード EMR クラスターを、 一時間0.15 USDドルの低価格で起動することができます。EMR は Amazon EC2 のスポットおよびリザーブドインスタンスをネイティブサポートしているため、基盤となるインスタンスのコストを 50~80% 節約することもできます。

弾力性

EMR は、コンピューティングインスタンスを、1 つでも、数百、数千でもプロビジョニングできるため、あらゆる規模のデータ処理に対応できます。インスタンス数は、手動や Auto Scaling を使って簡単に増減でき、お支払いは使った分のみの従量料金制です。EMRはコンピューティングインスタンスと持続するストレージを分離することもできるので、独立的にスケーリングされることができます。

信頼性

クラスターの調整やモニタリングにかかる労力も削減できます。EMR にはクラウド用の調整された Hadoop があり、クラスターをモニタリングして失敗したタスクを再試行し、自動的にパフォーマンスの低いインスタンスを置き換えます。EMRは最新の安定したオープンソースソフトウェアのリリースを提供するので、更新の管理およびバグの修復が不要で問題が少なく、環境を維持するための努力が少なくて済みます。

セキュア

EMR は、Amazon EC2 インスタンスへのネットワークアクセスを制御するファイアウォールの各種設定を自動的に構成します。また、お客様が定義する論理的に隔離されたネットワークである Amazon Virtual Private Cloud (VPC) 内にクラスターを起動することも可能です。S3 に保存されたオブジェクトの場合、AWS Key Management Service またはカスタマー管理型のキーを使用して Amazon S3 サーバー側の暗号化または Amazon S3 クライアント側の暗号化と EMRFS を使用できます。その他の暗号化オプションKerberos による認証も、簡単に有効化できます。

柔軟性

お客様がクラスターのすべてを制御することができます。各インスタンスへのルートアクセス権限をお客様が持つため、追加のアプリケーションを簡単にインストールすることができます。また、ブートストラップアクションを使用して、クラスターごとに設定をカスタマイズできます。カスタム Amazon Linux AMI を使用して、EMR クラスターを起動することもできます。

ユースケース

クリックストリーム分析

EMR を使用すると、クリックストリームデータを分析してユーザーを区分し、ユーザーの好みを把握して、より効果的な広告を配信できます。

Razorfish による EMR を使ったクリックストリームの分析事例の詳細 »

リアルタイム分析

Amazon Kinesis、Apache Kafka、またはその他のデータストリームからのリアルタイムデータを、Amazon EMR で Spark Streaming を使用して取り込み、処理します。ストリーミング分析を耐障害性のある方法で実行し、結果を S3 や HDFS に書き込みます。

Hearst による Spark Streaming の使用方法 »

ログ分析

EMRはウェブやモバイルアプリケーションで生成されたログの処理にも使用できます。EMRは、ペタバイト級の非構造化データや半構造化データからアプリケーションやユーザーに関する有益なインサイトを得るのに役立ちます。

抽出、変換、読み込み (ETL)

EMR を使用すると、並べ替え、集計、結合などのデータ変換ワークロード (ETL) を大規模なデータセットですばやく、コスト効率よく実行できます。

Redfin による ETL 用の一時的な EMR クラスターの使用方法 »

予測分析

EMR での Apache Spark には、スケーラブルな機械学習アルゴリズムに対応する MLlib が含まれています。独自のライブラリを使用することも可能です。Spark では、データセットをメモリ内に保存すると、一般的な機械学習ワークロードのパフォーマンスが向上します。

Intent Media による Spark MLib の使用方法 »

ゲノミクス

EMRでは、膨大な量のゲノミクスデータや、その他の大量の科学データセットをすばやく効率的に処理することもできます。研究者は AWS で無料でホストされているゲノミクスデータにアクセスできます。

Apache Spark と個別化医療の詳細 »

導入事例

アナリスト調査

1

AWS の開始方法

icon1

AWS アカウントにサインアップする

AWS 無料利用枠をすぐに利用できます。
icon2

10 分間チュートリアルで学ぶ

簡単なチュートリアルで学習します。
icon3

AWS で構築を開始する

ステップバイステップガイドに従って構築を開始すれば、 AWS プロジェクトを立ち上げることができます。
構築の準備はできましたか?
Amazon EMR の開始方法
ご不明な点がありますか?
お問い合わせ