Amazon EMRを使用すると、AWS クラウドで Hadoop を簡単に準備および管理できます。Hadoop は複数のディストリビューションで使用できるので、Amazon EMR では、Hadoop に対して Amazon ディストリビューションまたは MapR ディストリビューション を使用することができます。

MapR は、ミッションクリティカルでリアルタイムの本番使用を幅広くサポートする、実績のあるエンタープライズクラスのプラットフォームを備えた Hadoop を提供します。MapR により、かつてない信頼性と使いやすさ、世界最高クラスのスピードが、1 つの統合されたビッグデータプラットフォームの Hadoop、NoSQL、データベース、およびストリーミングアプリケーションで実現します。MapR は、金融サービス、小売り、メディア、医療、製造、通信、政府組織のほか、Fortune 100 および Web 2.0 のトップ企業で採用されています。また、投資企業としては、Lightspeed Venture Partners、Mayfield Fund、NEA、Redpoint Ventures などが名を連ねています。FacebookLinkedInTwitter でも MapR をご確認ください。

Amazon EMR の開始方法

まずは無料で始める

大規模なデータ処理要件がある場合は、割引料金が適用される可能性があります。

詳細については、お問い合わせください。

mapr-280
  • 迅速な復旧: MapR M7 によりデータベースの高可用性が実現します。ノードで障害が発生しても、システムは数秒で自動復旧するため、アプリケーションは障害の影響を受けることなく動作し続けることができます。
  • HBase の管理が不要: MapR M7 では、RegionServers などの個別のサービスを実行せずにテーブルを利用できます。さらに、M7 により圧縮が不要になり、シームレスなリージョン分割が可能なので、管理者は、これらの操作を手動で実行する必要がありません。
  • 継続的な低レイテンシー: MapR M7 は、パフォーマンスに影響するガベージコレクションまたは圧縮を回避することで、低レイテンシーを継続的に提供します。ディスク I/O が低く、ディスク上の占有スペースも少ないため、ディスク上のデータベースオペレーションが高速になり、さらに予測も可能です。
  • スナップショップによる完全なデータ保護: M7 は、HBase 用の完全なデータ保護機能を提供します。スナップショットによるテーブルのポイントインタイムリカバリで、ユーザーまたはアプリケーションのエラーからデータを保護できます。M7 では、スナップショットを拡張して、ファイルおよびテーブルのすべてのデータを追加できます。HBase テーブルはスナップショットから直接読み取り、復旧できます。他のディストリビューションで HBase を復元する際のダウンタイムはありません。
  • ミラーリングによるビジネスの継続性: ミラーリングにより、クラスター間の差分データがリアルタイムで自動的にレプリケートされます。このミラーリングを使用することで、データベースの災害復旧ソリューションを作成したり、複数の場所からデータへの読み取り専用アクセスを提供したりできます。M7 では RegionServers を再構築する必要がないので、アクティブなサイトがダウンしても、ミラー化されたサイトですぐにデータベースを使用できます。
  • NFS: MapR provides には、ランダムな読み込み/書き込みアクセス機能と標準の NFS インターフェイスが用意されているので、ユーザーがクラスターをマウントし、Linux ユーティリティ、ファイルブラウザ、Java 以外のアプリケーションなどの標準のファイルベースのアプリケーションを Hadoop で利用できます。Amazon EMR で MapR を使用する場合、NFS インターフェイスは /mapr にあらかじめマウントされています。
  • ODBC: MapR は、標準の ODBC 3.52 仕様に準拠する Hive 用の ODBC ドライバを提供し、ユーザーが Hadoop で BI ツールや SQL ビルダーを利用できるようにします。MicroStrategy、Tableau、Excel、Toad など、市販のツールやオープンソースツールが多数サポートされています。
  • デプロイ: Amazon EMR と MapR は、クラスターの準備、インストール、および構成を完全に自動化します。これは、AWS マネジメントコンソール、CLI、または API を使って起動できます。
  • MapR 制御システム(MCS): MapR には、ディストリビューションのハードウェア、ストレージ、MapReduce など、Hadoop 用のエンドツーエンドのモニタリングおよび管理コンポーネントが用意されています。
  • CLI および REST API: すべての MCS 機能が、CLI および REST API でも公開されています。これにより、ユーザーがクラスター情報を入手し、プログラム的に操作を実行できます。サードパーティおよび独自のモニタリング/管理システムとの統合も可能です。
  • ファイルシステムの高可用性: MapR は NameNode がないアーキテクチャーを提供します。このアーキテクチャーは、自動フェイルオーバーおよびフォールバックにより、複数の障害が同時に発生しても耐えることができます。メタデータは、データのように分散およびレプリケートされます。NameNode がないため、保存できるファイル数に制限がなく、外部 NAS にも依存しません。
  • MapReduce の高可用性: MapR には、自動フェイルオーバーおよびフォールバックを備えた JobTracker HA が用意されています。アクティブな JobTracker で障害が発生すると、別のノードにある JobTracker が自動的に起動し、すべてのジョブとタスクが中断なしで引き続き実行されます。
  • データ保護: MapR はポイントインタイムリカバリのスナップショットを提供し、ユーザーが、ユーザーエラーおよびアプリケーションエラーから復旧できるようにします。MapR では、リダイレクトオンライトテクノロジーが採用されているため、変更されたブロックのみのスナップショットが作成されます。このため、パフォーマンスへの影響はありません。スナップショットは一貫していることが保証されるので、すべてのアプリケーションがサポートされます。
  • 災害復旧: MapR はクラスター間でのミラーリングを提供することで、アベイラビリティーゾーン間、および構内と EMR クラスターの両方を含むハイブリッド環境での災害復旧を実現します。ハイブリッド環境では、EMC Greenplum MR、Cisco UCS アプライアンスなど、MapR ベースのすべての Hadoop ディストリビューションがサポートされます。変更されたブロックのみが転送され、すべてのデータが自動的に圧縮されることに注意してください。
  • 圧縮: MapR では、圧縮されていないすべてのデータが透過的かつ自動的に圧縮されます。これによりディスクとネットワーク I/O が減り、パフォーマンスが向上します。ファイルを手動で圧縮したり、アプリケーションを変更して圧縮を処理したりする必要はありません。また、ランダムな読み込み/書き込みも効率的です。これはファイル分割機能により必要なブロックについてのみ圧縮が解除されるからです。
  • パフォーマンス: MapR の特徴は、ディスクとネットワーク I/O を削減しながら、高い効率性と並列性を提供する高度なアーキテクチャーです。MapR はパフォーマンスの世界記録を保持しています。


M7 エディションは Apache Hadoop 用の完全なディストリビューションで、NoSQL および Hadoop アプリケーションに対して使いやすさ、信頼性、およびパフォーマンスを提供します。この M7 により、NoSQL ソリューションを求めている企業が直面するトレードオフが解消されます。拡張性、強い整合性、信頼性、継続的な低レイテンシーを備えたアーキテクチャーが実現し、圧縮もバックグラウンドでの整合性チェックも不要です。

M5 エディションも Apache Hadoop 用の完全なディストリビューションで、エンタープライズクラスの機能を Hadoop 上のすべてのファイルオペレーションに提供します。例えば、最も要件の厳しいミッションクリティカルな環境で役に立つ、ミラーリング、スナップショット、NFS HA、データ配置コントロールなどの機能です。

M3 エディションは無料版の Hadoop 用の完全なディストリビューションです。M3 エディションは、業界標準のインターフェイス(NFS、ODBC など)をサポートする、完全なランダム読み込み/書き込み対応プラットフォームを提供し、管理、圧縮、およびパフォーマンスの点でメリットをもたらします。

MapR 機能 M7 エディション M5 エディション M3 エディション
Apache Hadoop 用の完全なディストリビューション
直接アクセス NFS
無制限に拡張
世界最高のパフォーマンス
MapR 制御システム(MCS)
ボリュームベースのデータ管理  
NameNode なしの高可用性  
JobTracker の高可用性  
ファイルのスナップショット  
ファイルのミラーリング  
ローリングアップグレード  
HBase アプリケーションの迅速な復旧    
HBase の管理が不要
   
HBase の継続的な低レイテンシー    
HBase のスナップショット    
HBase のミラーリング    

EMR 開発者ガイド』には、AWS マネジメントコンソール、CLI、または API を使用した EMR での MapR の起動方法の詳細な手順が含まれています。AWS マネジメントコンソールを使用して MapR クラスターを起動するには:

  1. AWS マネジメントコンソールで EMR サービスにアクセスします。
  2. [Create New Job Flow] をクリックして [Create a new Job Flow] ウィザードを開始します。このウィザードで MapR クラスターを起動します。
  3. ウィザードの [Define Job Flow] ペインにある [Hadoop Version] ドロップダウンリストから MapR M7、M5、または M3 を選択します。
  4. ウィザードの残りの手順に従ってジョブフローを起動します。

AWS プレミアムサポートをご利用のお客様は、EMR での MapR のあらゆる問題に関して Amazon にお問い合わせいただけます。

M5 と M7 のユーザーは、MapR の 24 時間年中無休のサポートに直接メール(support@mapr.com)でお問い合わせいただくこともできます。すべての MapR ユーザーは、MapR によって継続的にモニタリングされている MapR フォーラムに質問を投稿できます。


Amazon Elastic MapReduce および Amazon EMR は、Amazon Web Services, Inc. またはその関連会社における商標です。All rights reserved.