Apache HBase は、Apache Hadoop エコシステムの、非常にスケーラブルな分散型ビッグデータストアです。これは (EMRFS を使用する) Amazon S3 または Hadoop Distributed Filesystem (HDFS) で動作する、バージョン管理された、オープンソースの非リレーショナルデータベースであり、数十億の行と数百万の列があるテーブルに対し、厳密な整合性のあるランダムなリアルタイムアクセスを行えるよう構築されています。Apache Phoenix は、Apache HBase テーブルに低レイテンシーな SQL アクセスをするために Apache HBase に、またパフォーマンスを向上させるためにセカンダリインデックスの作成に統合されます。さらに、Apache HBase は Apache HadoopApache Hive、および Apache Pig と緊密に統合されているため、大量の並列分析と高速データアクセスを簡単に組み合わせて処理することができます。Apache HBase のデータモデル、スループットおよび耐障害性は、広告、ウェブ分析、金融サービス、時系列データを使用するアプリケーションや、その他のさまざまなワークロードに非常に適しています。

Apache HBase は Amazon EMR でネイティブにサポートされているため、AWS マネジメントコンソール、AWS CLI または Amazon EMR API から簡単かつ迅速にマネージド型の Apache HBase クラスターを作成できます。Amazon EMR の付加的な機能も活用できます。それには、コスト削減のために Amazon S3 をデータストアとして使用すること、リードレプリカを作成して可用性を向上させること、クラスターのハードウェアで Amazon EC2 インスタンスや Amazon EBS ボリュームの多様な選択肢を活用すること、Amazon EMR File System (EMRFS) を使用した Amazon S3 に対するバックアップと復元、ノードの自動交換、クラスター内のインスタンスを簡単に増減できるサイズ変更コマンドなどが含まれます。また、Hue を使用し、HBase テーブルを可視化してデータを調査することもできます。Amazon EMR における Apache HBase の詳細

hbase_logo_with_orca_large

Amazon EMR で Apache HBase の使用を開始する

まずは無料で始める

サポートが必要ですか? お問い合わせください。


S3_Sketch_Available

Apache HBase は、数百のノードにスケーリングし、数十億の行と数百万の列をサポートしながらも、パフォーマンスを維持できるよう設計されています。これは Amazon S3 (EMRFS を使用) または Hadoop Distributed Filesystem (HDFS) を、耐障害性のあるデータストアとして利用します。Amazon EMR では幅広いインスタンスタイプと Amazon EBS ボリュームがサポートされているため、コストとパフォーマンスが最適化されるようクラスターのハードウェアをカスタマイズできます。さらに、Apache Phoenix を使用して、大量の HBase テーブルに対して低レイテンシーの SQL を実現したり、パフォーマンス向上のためにセカンダリインデックスを作成したりできます。

S3_Sketch_HighPerformance

Apache Hadoop エコシステム内でプロジェクトと緊密に統合することにより、HBase テーブルに保存されたデータの大量の分析ワークロードを簡単に並列で実行できます。Apache HBase とともに、Amazon EMR クラスターには Apache PhoenixApache HadoopApache HiveApache Pig およびその他オープンソースのビッグデータアプリケーションを簡単にインストールでき、これらのツールによって Apache HBase 内のデータのレポート作成、SQL クエリ、またはその他のワークロードを実行できます。また、これらのツールによって Apache HBase にデータを一括インポート/エクスポートすることや、Apache Hive を使用して Apache HBase のデータを Amazon S3 の外部テーブルと結合することも可能です。

Benefit_Compliance_Orange

Apache HBase はワイドカラムストア型であり、フィルター用として各行に対し任意の列を定義できます。さらに、HBase は各セルにタイムスタンプを追加し、前バージョンを保持することができるため、データセット系列の保存とアクセスも簡単です。各セルがバイト配列であり、MB 範囲でペイロードを保存できるため、テーブルに保存されるデータタイプも柔軟に選べます。Apache Phoenix および Apache Hive では、Apache HBase テーブルに SQL でアクセスできます。

Benefit_Integration_Green

Apache HBase および Apache Hadoop や Apache Spark エコシステムのアプリケーションを実行する、完全に設定済みの Amazon EMR クラスターを数分で簡単に作成できます。Amazon EMR ではパフォーマンスの低いノードを自動的に置き換えられ、要件に応じてクラスターのサイズを再設定することも簡単です。Apache HBase 内のテーブル管理とデータ参照は Hue UI を使用して実行でき、EMRFS と Hadoop MapReduce を使用して、Amazon S3 にテーブルをバックアップや復元することも簡単です。さらに、Amazon EMR で Apache HBase を使用する場合、Amazon EMR の認証、Kerberos 認証、暗号化機能セットを利用できます。Amazon EMR の特徴の詳細についてはここをクリックしてください。

Benefit_Simple_Red

Amazon EMR では、EMR ファイルシステムによって Amazon S3 を Apache HBase のデータストアとして使用できます。Amazon S3 をデータストアとして使用し、クラスターのストレージノードとコンピューティングノードを分けることには、オンクラスターの HDFS と比較していくつかの利点があります。HDFS データストレージの代わりにコンピューティングの必要に合わせてクラスターのサイズを設定することでコストを節約し、S3 ストレージの持つ可用性と耐久性を手に入れ、基盤となるストレージに影響を与えることなくコンピューティングノードをスケールすることが可能になります。また、コスト節減のためにクラスターを削除することや必要なときにすばやく回復することも可能です。別の Amazon EC2 アベイラビリティーゾーンにリードレプリカクラスターを作成し、プライマリクラスターと同じデータへの読み取り専用アクセスを設定すれば、プライマリクラスターが利用できなくなった場合でもデータへのアクセスを中断させずにすみます。


FINRA

FINRA (Financial Industry Regulatory Authority) は米国の、最大の独立系証券取引規制機関で、金融取引の監視と規制を行っています。FINRA は、3 兆件のレコード (毎日数十億単位で増加する) に対するランダムアクセスのため、 Amazon EMR を使用して Amazon S3 で Apache HBase を運用し、対話型のアプリケーションが、関連する市場での出来事を検索し、表示できるようにしています。ストレージとコンピューティングを切り離すことで、FINRA は、3 倍のレプリケーションが発生する HDFS でデータを保存するようにクラスターのサイズを調整する代わりに、データの単一コピーを Amazon S3 に保存し、必要とされるコンピューティング性能に合わせてクラスターのサイズを調整することができます。この結果、年間 60% を超えるコストが節約され、コンピューティングのスケーラビリティが容易に確保されて、新しい EC2 アベイラビリティーゾーンにおけるクラスターの復元時間が、数日間から 30 分未満にまで短縮されています。

Monster.com

人と仕事をつなぐ面でのグローバルリーダーである Monster は、Apache HBase を Amazon EMR で使用して、クリックストリームと広告キャンペーンデータをダウンストリームの分析用に保存しています。これにより、さまざまな顧客セグメントがキャンペーンに対してどのように行動したか、単一のインプレッションレベルの細かさでモニタリングできています。Monster の分析チームは行を簡単にスキャンすることで、ユーザーごとのビューとクリックの数を集計し、キャンペーン活動について確認できます。さらに、同社では Apache HBase と Apache Hadoop エコシステムとの緊密な統合も活用しています。Monster では Apache Hive を別の Amazon EMR クラスターで実行して HBase テーブルを SQL でクエリしています。これは、さらに詳細な分析の実行、および Apache HBase から Amazon Redshift へのデータエクスポートに役立っています。