Amazon EMR

Apache Spark、Hadoop、HBase、Presto、Hive、その他のビッグデータフレームワークを簡単に実行してスケーリング

Amazon EMR は、業界をリードするクラウドネイティブなビッグデータプラットフォームです。大規模環境で大量のデータを迅速かつコスト効率よく処理できます。EMR では Apache Spark、Apache Hive、Apache HBaseApache FlinkPresto などのオープンソースのツールと、Amazon EC2 の動的なスケーラビリティおよび Amazon S3 によるスケーラブルなストレージを組み合わせた、伸縮自在な分析エンジンが提供されます。ペタバイト規模の分析を、従来のオンプレミスクラスターと比べてわずかなコストで実行できます。開発者やアナリストは Jupyter ベースの EMR ノートブックを活用した反復開発やコラボレーションを行うことができます。また Amazon S3、Amazon DynamoDBAmazon Redshift などの AWS のデータ関連製品に保存されたデータにもアクセスでき、情報入手までの時間を短縮でき、分析をすばやく運用可能にします。

EMR はさまざまな業種のお客様にお使いいただけます。機械学習、データ変換 (ETL)、金融シミュレーション、科学シミュレーション、バイオインフォマティクス、ログ分析、深層学習などのビッグデータの広範なユースケースを安全かつ信頼性の高い方法で取り扱うことができます。EMR では新しいマルチマスターのデプロイモードが利用でき、需要に合わせて自動的にスケールする一時的な専用クラスターのユースケースや、長期間実行する高可用性クラスターのユースケースを柔軟にサポートします。 

Amazon EMR のご紹介 (3:00)

利点

使いやすい

EMR ではクラスターを数分で起動できます。ノードのプロビジョニング、インフラストラクチャのセットアップ、Hadoop の設定、クラスターのチューニングなど、わずらわしい作業は不要です。こうした作業はEMR 側で実行されるため、お客様は分析に専念できます。EMR ノートブックではサーバーレスの Jupyter ノートブックを数秒で起動でき、アナリスト、データエンジニア、データサイエンティストは使いやすいノートブック形式で、自身やチームでのコラボレーションのためにインタラクティブにデータを調査、処理、可視化できます。

低コスト

EMR の料金体系は予想がしやすくシンプル: 1 秒ごとに課金され、最小課金時間は 1 分となっています。Apache Spark、Apache Hive といったアプリケーションを含む 10 ノードの EMR クラスターを起動し、1 時間あたりわずか 0.15 USD で利用できます。EMR は Amazon EC2 のスポットおよびリザーブドインスタンスをネイティブサポートしているため、基盤となるインスタンスのコストを 50~80% 節約することもできます。

伸縮性

EMR は、コンピューティングインスタンスを、1 つでも、数百、数千でもプロビジョニングできるため、あらゆる規模のデータ処理に対応できます。インスタンスの数は手動で増減することも、Auto Scaling (利用率に応じてクラスターサイズを管理する) を使用して自動的に増減することもでき、お支払いいただくのは実際に使用した分のみです。オンプレミスのクラスターのような柔軟性の低いインフラストラクチャと異なり、EMR のコンピューティングと永続的ストレージは分離されているため、それぞれを独立してスケールさせることができます。

信頼性

クラスターの調整やモニタリングにかかる労力を削減できます。EMR はクラウド向けに調整され、クラスターを継続的にモニタリングして失敗したタスクを再試行し、パフォーマンスの低いインスタンスを自動的に置き換えます。EMRは最新の安定したオープンソースソフトウェアのリリースを提供するので、更新の管理およびバグの修復が不要で問題が少なく、環境を維持するための努力が少なくて済みます。複数のマスターノードを使用すると、クラスターの可用性が高まり、ノード障害の発生時に自動的にフェイルオーバーします。

セキュア

EMR では、EC2 インスタンスへのネットワークアクセスを制御するファイアウォールの各種設定が自動的に構成されます。また、お客様が定義する論理的に隔離されたネットワークである Amazon Virtual Private Cloud (VPC) 内でクラスターを起動することも可能です。EMRFS (Hadoop 用の S3 のオブジェクトストア) で S3 にオブジェクトを保存する際、AWS Key Management Service またはお客様が管理するキーにより、サーバー側の暗号化またはクライアント側の暗号化を行うことができます。EMR では伝送中の暗号化、保管時の暗号化、Kerberos を使った強力な認証など、その他の暗号化オプションも簡単に利用できます。

柔軟性

お客様がクラスターのすべてを制御することができます。各インスタンスへのルートアクセス権限はお客様が持つため、追加のアプリケーションを簡単にインストールでき、ブートストラップアクションを使用してクラスターごとの設定をカスタマイズできます。また EMR クラスターは Amazon Linux のカスタム AMI で起動することもでき、実行中のクラスターを再起動の必要なしにオンザフライで再設定することもできます。

ユースケース

Machine Learning

EMR には Apache Spark MLlib、TensorFlow、Apache MXNet などの機械学習ツールが組み込まれ、スケーラブルな機械学習アルゴリズムが利用できます。また、カスタム AMI およびブートストラップアクションを使用すると、任意のライブラリやツールを追加した予測分析のためのツールセットを簡単に作成できます。

Intent Media による Spark MLib の使用方法 »

抽出、変換、読み込み (ETL)

EMR を使用すると、並べ替え、集計、結合などのデータ変換ワークロード (ETL) を大規模なデータセットですばやく、コスト効率よく実行できます。

Redfin による ETL 用の一時的な EMR クラスターの使用方法 »

クリックストリーム分析

Amazon S3 に保存したクリックストリームデータを Apache Spark および Apache Hive を使って分析することにより、ユーザーの区分やユーザーの好みを把握して、より効果的な広告配信を行うことができます。

Razorfish による EMR を使ったクリックストリームの分析事例の詳細 »

リアルタイムストリーミング

EMR と Apache Spark Streaming を組み合わせると、Apache Kafka、Amazon Kinesis、その他のデータソースからストリーミングされるイベントをリアルタイムに分析する、高い可用性と耐障害性を備えた長期間の実行に対応するストリーミングデータのパイプラインを構築できます。変換済みのデータセットは Amazon S3 や HDFS に永続的に保存し、インサイトは Amazon Elasticsearch で活用できます。

Hearst による Spark Streaming の使用方法 »

インタラクティブ分析

EMR ノートブックはオープンソースの Jupyter をベースにしたマネージド型の分析環境で、データサイエンティスト、アナリスト、開発者はデータの準備や可視化、同僚との共同作業、アプリケーションの構築、インタラクティブ分析の実行に活用できます。

ゲノミクス

EMRでは、膨大な量のゲノミクスデータや、その他の大量の科学データセットをすばやく効率的に処理することもできます。研究者は AWS で無料でホストされているゲノミクスデータにアクセスできます。

Apache Spark と個別化医療の詳細 »

導入事例

アナリスト調査

1

AWS の使用を開始する

Step 1 - Sign up for an AWS account

AWS アカウントにサインアップする

AWS 無料利用枠をすぐに利用できます。
icon2

10 分間チュートリアルで学ぶ

簡単なチュートリアルで学習します。
icon3

AWS で構築を開始する

ステップバイステップガイドに従って構築を開始すれば、 AWS プロジェクトを立ち上げることができます。