Apache HBase는 Apache Hadoop 에코시스템에 있는 확장성이 뛰어난 분산 빅 데이터 스토어입니다. 하둡 분산 파일 시스템(HDFS) 위에서 실행되는 버전이 지정된 비관계형 오픈 소스 데이터베이스이며, 수십억 개의 행과 수백만 개의 열로 구성된 테이블에 엄격하게 일관된 실시간 임의 액세스를 제공하도록 구축되었습니다. Apache Phoenix는 Apache HBase와 통합되므로 Apache HBase 테이블에 대한 지연 시간이 짧은 SQL 액세스와 성능 향상을 위한 보조 인덱싱을 제공할 수 있습니다. 또한, Apache HBase는 Apache Hadoop, Apache Hive 및 Apache Pig와 긴밀하게 통합되므로 대량의 병렬 분석과 빠른 데이터 액세스를 손쉽게 결합할 수 있습니다. Apache HBase의 데이터 모델, 처리량 및 내결함성은 광고 기술, 웹 분석, 금융 서비스, 시계열 데이터를 사용하는 애플리케이션 등의 워크로드에 매우 적합합니다.
Apache HBase는 기본적으로 Amazon EMR에서 지원되므로, AWS Management Console, AWS CLI 또는 Amazon EMR API를 통해 관리형 Apache HBase 클러스터를 빠르고 간편하게 생성할 수 있습니다. 또한, 클러스터의 하드웨어에 대해 다양한 Amazon EC2 인스턴스 및 Amazon EBS 볼륨 선택, Amazon EMR 파일 시스템(EMRFS)을 사용하여 Amazon S3에 백업 및 복원, 자동 노드 교체, 클러스터에서 인스턴스를 추가 또는 삭제하는 간단한 크기 조정 명령 등을 비롯한 추가적인 Amazon EMR 기능을 활용할 수 있습니다. Hue를 사용하여 HBase 테이블을 시각화하고 데이터를 탐색할 수도 있습니다. Amazon EMR 기반 Apache HBase에 대해 자세히 알아보십시오.
Apache HBase는 수십억 개의 행과 수백만 개의 열을 지원하는 수백 개의 노드로 확장하더라도 성능을 유지하도록 설계되었습니다. Apache HBase는 클러스터에 파일을 3번 복제하여 저장하는 하둡 분산 파일 시스템(HDFS)을 내결함성 데이터 스토어로 사용합니다. Amazon EMR은 다양한 인스턴스 유형과 Amazon EBS 볼륨을 지원하므로, 비용과 성능에 최적화되도록 클러스터의 하드웨어를 사용자 정의할 수 있습니다. 또한, Apache Phoenix를 사용하여 대량의 HBase 테이블에 대한 지연 시간이 짧은 SQL을 지원하거나 성능 향상을 위해 보조 인덱스를 생성할 수 있습니다.
Apache Hadoop 에코시스템에 있는 프로젝트들과의 긴밀한 결합을 통해, HBase 테이블에 저장된 데이터에서 대량의 병렬 분석 워크로드를 실행할 수 있습니다. Amazon EMR 클러스터에 Apache HBase와 더불어 Apache Phoenix, Apache Hadoop, Apache Hive, Apache Pig 및 기타 오픈 소스 빅 데이터 애플리케이션을 손쉽게 설치하고, 이러한 도구를 사용하여 Apache HBase의 데이터에 대한 보고, SQL 쿼리 또는 기타 분석 워크로드를 실행할 수 있습니다. 또한, 이러한 도구를 사용하여 Amazon S3 또는 HDFS에서 Apache HBase 테이블로 대량 데이터를 가져오고 내보내거나, Apache Hive를 사용하여 Apache HBase의 데이터를 Amazon S3의 외부 테이블과 조인할 수 있습니다.
Apache HBase는 와이드 컬럼 스토어이므로, 필터링 용도로 각 행에 대해 임의 열을 정의할 수 있습니다. 또한, HBase는 각 셀에 타임스탬프를 추가하고 이전 버전을 유지할 수 있으므로, 데이터 세트의 계보를 손쉽게 저장 및 액세스할 수 있습니다. 각 셀은 바이트 배열로, MB 규모의 페이로드를 저장할 수 있어서 테이블에 저장되는 데이터 유형을 자유롭게 선택할 수 있습니다. Apache Phoenix와 Apache Hive는 Apache HBase 테이블에 대한 SQL 액세스를 지원합니다.
Apache HBase와 기타 Apache Hadoop 및 Apache Spark 에코시스템 애플리케이션을 실행하는 완전히 구성된 Amazon EMR 클러스터를 몇 분 만에 손쉽게 시작할 수 있습니다. Amazon EMR은 성능이 저하된 노드를 자동으로 교체하고, 사용자는 요구 사항에 맞춰 클러스터 크기를 손쉽게 조정할 수 있습니다. Hue UI를 사용하여 Apache HBase의 테이블을 관리하고 데이터를 탐색하며, EMRFS와 하둡 MapReduce를 사용하여 Amazon S3에 테이블을 손쉽게 백업 및 복원할 수 있습니다. 또한, Amazon EMR 기반 Apache HBase는 Amazon EMR의 권한 부여 및 암호화 기능 집합을 사용할 수 있습니다. Amazon EMR 기능에 대한 자세한 내용은 여기를 클릭하십시오.
세계적인 구인구직 서비스 업체인 Monster는 Amazon EMR 기반 Apache HBase를 사용하여 다운스트림 분석을 위한 클릭스트림 및 광고 캠페인 데이터를 저장합니다. 이를 통해 해당 캠페인에서 단일 노출 단위로 세분화하여 서로 다른 고객 세그먼트가 어떻게 수행되고 있는지 모니터링할 수 있습니다. Monster의 분석 팀은 손쉽게 행을 스캔하고 사용자당 보기 및 클릭 수를 집계하여 캠페인 활동을 파악할 수 있습니다. 또한, Apache HBase가 Apache Hadoop 에코시스템과 긴밀히 통합된다는 점도 활용합니다. Monster는 별도의 Amazon EMR 클러스터에서 Apache Hive를 실행하여 SQL을 통해 HBase 테이블을 쿼리합니다. 이는 추가 분석과 Apache HBase에서 Amazon Redshift로 데이터를 내보낼 때 유용합니다.
- Apache HBase가 포함된 Amazon EMR 클러스터를 생성하는 방법에 대한 지침
- HBase에 대한 자세한 내용은 HBase 프로젝트용 The Apache Software Foundation 웹 사이트 참조
- AWS 블로그의 Amazon EMR 기반 HBase 1.2 출시 관련 블로그 게시물