投稿日: Nov 21, 2016

EMR ファイルシステムを使用して、Amazon EMR で Apache HBase のデータストアとして Amazon S3 を使用できるようになりました。Apache HBase は、数十億の行と数百万の列を持つテーブルへのランダムで厳密な一貫性のあるリアルタイムのアクセス用に構築された、分散型の非リレーショナルデータベースシステムです。Apache HBase 用のデータストアとして Amazon S3 を使用することで、クラスターのストレージノードとコンピューティングノードを分離することができます。これにより、オンクラスターの Hadoop Distributed File System (HDFS) で 3 倍のレプリケーションを使用してデータセット全体を保存する料金を支払う代わりに、コンピューティング要件に合わせてクラスターのサイズを設定することで、コストを節約できます。

Amazon EMR は Amazon S3 の Apache HBase を設定して、データをメモリ内およびクラスターのディスクにキャッシュし、アクティブなコンピューティングノードからより高速なパフォーマンスを提供します。基本的なストレージに影響を与えることなく、コンピューティングノードで迅速かつ簡単にスケールアウトまたはスケールインするか、クラスターを終了してコストを節約し、別のアベイラビリティーゾーンで迅速に復元することができます。

Apache HBase と Amazon S3 のサポートは Amazon EMR リリース 5.2.0 で利用でき、AWS マネジメントコンソール、AWS CLI、または SDK から、リリースラベル「emr-5.2.0」を使用して起動できます。Amazon S3 をデータストアとして使用するには、ストレージモードを設定し、Apache HBase 設定でルートディレクトリを指定します。また、EMRFS の整合性のあるビューを有効にすることをお勧めします。Amazon S3 の Apache HBase の詳細については、Amazon EMR ドキュメントを参照してください。

HBase-on-S3-600x337