Apache HBase は、Apache Hadoop エコシステム内の、非常にスケーラブルな分散型ビッグデータストアです。これは Hadoop Distributed Filesystem (HDFS) で動作する、バージョン管理された、オープンソースの非リレーショナルデータベースであり、数十億の行と数百万の列があるテーブルに対し、厳密な整合性のあるランダムなリアルタイムアクセスを行えるよう構築されています。Apache Phoenix は、Apache HBase テーブルに低レイテンシーな SQL アクセスをするために Apache HBase に、またパフォーマンスを向上させるためにセカンダリインデックスの作成に統合されます。さらに、Apache HBase は Apache Hadoop、Apache Hive、および Apache Pig と緊密に統合されているため、大量の並列分析と高速データアクセスを簡単に組み合わせて処理することができます。Apache HBase のデータモデル、スループットおよび耐障害性は、広告、ウェブ分析、金融サービス、時系列データを使用するアプリケーションおよびその他さまざまなワークロードに非常に適しています。
Apache HBase は Amazon EMR でネイティブにサポートされており、AWS マネジメントコンソール、AWS CLI または Amazon EMR API から簡単かつ迅速にマネージド型の Apache HBase クラスターを作成できます。さらに、クラスターのハードウェア向けに多様な Amazon EC2 インスタンスおよび Amazon EBS ボリュームの選択、Amazon EMR File System (EMRFS) を使用した Amazon S3 へのバックアップと復元、ノードの自動交換、およびクラスターからインスタンスを追加または削減するための簡単なサイズ再設定コマンドなど、Amazon EMR の付加的な特徴も活用できます。また、Hue を使用し、HBase テーブルを可視化してデータを調査することもできます。Amazon EMR における Apache HBase の詳細。
Apache HBase は、数百のノードにスケーリングし、数十億の行と数百万の列をサポートしながらも、パフォーマンスを維持できるよう設計されています。Hadoop Distributed Filesystem (HDFS) が耐障害性を持つデータストアとして使用され、クラスター内でファイルは 3 つにレプリケーションされて保存されます。Amazon EMR では幅広いインスタンスタイプと Amazon EBS ボリュームがサポートされているため、コストとパフォーマンスが最適化されるようクラスターのハードウェアをカスタマイズできます。さらに、Apache Phoenix を使用して、大量の HBase テーブルに対して低レイテンシーの SQL を実現したり、パフォーマンス向上のためにセカンダリインデックスを作成したりできます。
Apache Hadoop エコシステム内でプロジェクトと緊密に統合することにより、HBase テーブルに保存されたデータの大量の分析ワークロードを簡単に並列で実行できます。Apache HBase とともに、Amazon EMR クラスターには Apache Phoenix、Apache Hadoop、Apache Hive、Apache Pig およびその他オープンソースのビッグデータアプリケーションを簡単にインストールでき、これらのツールによって Apache HBase 内のデータのレポート作成、SQL クエリ、またはその他のワークロードを実行できます。また、これらのツールによって Amazon S3 や HDFS から Apache HBase にデータを一括インポート/エクスポートすることや、Apache Hive を使用して Apache HBase のデータを Amazon S3 の外部テーブルと結合することも可能です。
Apache HBase はワイドカラムストア型であり、フィルター用として各行に対し任意の列を定義できます。さらに、HBase は各セルにタイムスタンプを追加し、前バージョンを保持することができるため、データセット系列の保存とアクセスも簡単です。各セルがバイト配列であり、MB 範囲でペイロードを保存できるため、テーブルに保存されるデータタイプも柔軟に選べます。Apache Phoenix および Apache Hive では、Apache HBase テーブルに SQL でアクセスできます。
Apache HBase および Apache Hadoop や Apache Spark エコシステムのアプリケーションを実行する、完全に設定済みの Amazon EMR クラスターを数分で簡単に作成できます。Amazon EMR ではパフォーマンスの低いノードを自動的に置き換えられ、要件に応じてクラスターのサイズを再設定することも簡単です。Apache HBase 内のテーブル管理とデータ参照は Hue UI を使用して実行でき、EMRFS と Hadoop MapReduce を使用して、Amazon S3 にテーブルをバックアップや復元することも簡単です。さらに、Amazon EMR で Apache HBase を使用する場合、Amazon EMR の認証および暗号化機能セットを利用できます。Amazon EMR の特徴の詳細についてはここをクリックしてください。
人と仕事をつなぐ面でのグローバルリーダーである Monster は、Apache HBase を Amazon EMR で使用して、クリックストリームと広告キャンペーンデータをダウンストリームの分析用に保存しています。これにより、さまざまな顧客セグメントがキャンペーンに対してどのように行動したか、単一のインプレッションレベルの細かさでモニタリングできています。Monster の分析チームは行を簡単にスキャンすることで、ユーザーごとのビューとクリックの数を集計し、キャンペーン活動について確認できます。さらに、同社では Apache HBase と Apache Hadoop エコシステムとの緊密な統合も活用しています。Monster では Apache Hive を別の Amazon EMR クラスターで実行して HBase テーブルを SQL でクエリしています。これは、さらに詳細な分析の実行、および Apache HBase から Amazon Redshift へのデータエクスポートに役立っています。
- HBase についての詳細情報 (HBase プロジェクトについての Apache Software Foundation のウェブサイト)
- Amazon EMR での HBase 1.2 起動についてのブログ記事 (AWS ブログ)