Apache HBase는 Apache 하둡 에코시스템에 있는 확장성이 뛰어난 분산 빅 데이터 스토어입니다. Amazon S3(EMRFS 사용) 또는 하둡 분산 파일 시스템(HDFS)에서 실행되는 버전이 지정된 비관계형 오픈 소스 데이터베이스이며, 수십억 개의 행과 수백만 개의 열로 구성된 테이블에 엄격하게 일관된 실시간 임의 액세스를 제공하도록 구축되었습니다. Apache Phoenix는 Apache HBase와 통합되므로 Apache HBase 테이블에 대한 지연 시간이 짧은 SQL 액세스와 성능 향상을 위한 보조 인덱싱을 제공할 수 있습니다. 또한, Apache HBase는 Apache 하둡, Apache Hive 및 Apache Pig와 긴밀하게 통합되므로 대량의 병렬 분석과 빠른 데이터 액세스를 손쉽게 결합할 수 있습니다. Apache HBase의 데이터 모델, 처리량 및 내결함성은 광고 기술, 웹 분석, 금융 서비스, 시계열 데이터를 사용하는 애플리케이션 등의 워크로드에 매우 적합합니다.
Apache HBase는 Amazon EMR에서 기본적으로 지원되므로, AWS Management Console, AWS CLI 또는 Amazon EMR API를 통해 관리형 Apache HBase 클러스터를 빠르고 간편하게 생성할 수 있습니다. Amazon S3를 데이터 스토어로 사용하여 비용 절감, 읽기 전용 복제본 클러스터를 생성하여 가용성 향상, 클러스터의 하드웨어에 대해 다양한 Amazon EC2 인스턴스 및 Amazon EBS 볼륨 선택, Amazon EMR 파일 시스템(EMRFS)을 사용하여 Amazon S3에 백업 및 복원, 자동 노드 교체, 클러스터에서 인스턴스를 추가 또는 삭제하는 간단한 크기 조정 명령 등을 비롯한 추가적인 Amazon EMR 기능을 활용할 수 있습니다. Hue를 사용하여 HBase 테이블을 시각화하고 데이터를 탐색할 수도 있습니다. Apache HBase 및 Amazon EMR 기반 Apache HBase에 대해 자세히 알아보십시오.
기능 및 장점
대규모를 지원하는 성능
Apache HBase는 수십억 개의 행과 수백만 개의 열을 지원하는 수백 개의 노드로 확장하더라도 성능을 유지하도록 설계되었습니다. 또한, Amazon S3(EMRFS 사용) 또는 하둡 분산 파일 시스템(HDFS)을 내결함성 데이터 스토어로 활용합니다. Amazon EMR은 다양한 인스턴스 유형과 Amazon EBS 볼륨을 지원하므로, 비용과 성능에 최적화되도록 클러스터의 하드웨어를 사용자 정의할 수 있습니다. 또한, Apache Phoenix를 사용하여 대량의 HBase 테이블에 대한 지연 시간이 짧은 SQL을 지원하거나 성능 향상을 위해 보조 인덱스를 생성할 수 있습니다.
분석 워크로드
Apache Hadoop 에코시스템에 있는 프로젝트들과의 긴밀한 결합을 통해, HBase 테이블에 저장된 데이터에서 대량의 병렬 분석 워크로드를 실행할 수 있습니다. Amazon EMR 클러스터에 Apache HBase와 더불어 Apache Phoenix, Apache 하둡, Apache Hive, Apache Pig 및 기타 오픈 소스 빅 데이터 애플리케이션을 손쉽게 설치하고, 이러한 도구를 사용하여 Apache HBase의 데이터에 대한 보고, SQL 쿼리 또는 기타 분석 워크로드를 실행할 수 있습니다. 또한, 이러한 도구를 사용하여 Apache HBase 테이블로 대량 데이터를 가져오고 내보내거나, Apache Hive를 사용하여 Apache HBase의 데이터를 Amazon S3의 외부 테이블과 조인할 수 있습니다.
Amazon EMR과의 통합
Apache HBase와 기타 Apache Hadoop 및 Apache Spark 에코시스템 애플리케이션을 실행하는 완전히 구성된 Amazon EMR 클러스터를 몇 분 만에 손쉽게 시작할 수 있습니다. Amazon EMR은 성능이 저하된 노드를 자동으로 교체하고, 사용자는 요구 사항에 맞춰 클러스터 크기를 손쉽게 조정할 수 있습니다. Hue UI를 사용하여 Apache HBase의 테이블을 관리하고 데이터를 탐색하며, EMRFS와 하둡 MapReduce를 사용하여 Amazon S3에 테이블을 손쉽게 백업 및 복원할 수 있습니다. 또한, Amazon EMR 기반 Apache HBase는 Amazon EMR의 권한 부여, Kerberos 인증 및 암호화 기능 집합을 사용할 수 있습니다. Amazon EMR 기능에 대해 자세히 알아보려면 여기를 클릭하십시오.
HBase용 Amazon S3 스토리지
Amazon EMR에서는 EMR 파일 시스템을 통해 Amazon S3를 Apache HBase용 데이터 스토어로 사용할 수 있습니다. Amazon S3를 데이터 스토어로 사용함으로써 클러스터의 스토리지와 컴퓨팅 노드를 분리하여 클러스터상 HDFS 대비 몇 가지 장점을 제공합니다. HDFS 데이터 스토리지가 아니라 컴퓨팅 요구 사항에 맞춰 클러스터 크기를 조정하여 비용을 절감하고, S3 스토리지의 가용성과 내구성을 확보하고, 기존 스토리지에 영향을 주지 않고 컴퓨팅 노드를 확장하고, 비용 절감을 위해 클러스터를 종료하고 신속하게 이를 복원할 수 있습니다. 또한, 다른 Amazon EC2 가용 영역에 읽기 전용 복제본 클러스터를 생성 및 구성하여 기본 클러스터와 마찬가지로 동일한 데이터에 대한 읽기 전용 액세스를 제공함으로써 기본 클러스터를 사용할 수 없게 되더라도 데이터에 대한 지속적인 액세스를 보장할 수 있습니다.
HBase 및 Amazon EMR을 사용하는 고객 성공 사례

FINRA(Financial Industry Regulatory Authority)는 미국에서 가장 큰 독립적인 보안 규제 기관으로, 금융 거래 사례를 모니터링하고 규제합니다. FINRA는 대화형 애플리케이션이 3조 개의 레코드(하루에 수십억 개씩 증가)에 임의 액세스하여 관련 시장 이벤트를 검색 및 표시할 수 있도록 Amazon S3에서 Apache HBase를 실행하기 위해 Amazon EMR을 사용합니다. FINRA는 스토리지와 컴퓨팅을 분리함으로써 3x 복제로 HDFS에 데이터를 저장하기 위해 클러스터 크기를 조정하는 것이 아니라, 데이터의 단일 복사본을 Amazon S3에 저장하고 필요한 컴퓨팅 파워에 맞춰 클러스터 크기를 조정할 수 있습니다. 이를 통해 연간 60% 이상의 비용을 절감하고, 간단하게 컴퓨팅을 확장하며, 새로운 EC2 가용 영역의 클러스터 복원 시간을 며칠에서 30분 미만으로 줄일 수 있습니다.

세계적인 구인구직 서비스 업체인 Monster는 Amazon EMR 기반 Apache HBase를 사용하여 다운스트림 분석을 위한 클릭스트림 및 광고 캠페인 데이터를 저장합니다. 이를 통해 해당 캠페인에서 단일 노출 단위로 세분화하여 서로 다른 고객 세그먼트가 어떻게 수행되고 있는지 모니터링할 수 있습니다. Monster의 분석 팀은 손쉽게 행을 스캔하고 사용자당 보기 및 클릭 수를 집계하여 캠페인 활동을 파악할 수 있습니다. 또한, Apache HBase가 Apache Hadoop 에코시스템과 긴밀히 통합된다는 점도 활용합니다. Monster는 별도의 Amazon EMR 클러스터에서 Apache Hive를 실행하여 SQL을 통해 HBase 테이블을 쿼리합니다. 이는 추가 분석과 Apache HBase에서 Amazon Redshift로 데이터를 내보낼 때 유용합니다.
블로그 게시물


Amazon EMR 요금에 대해 자세히 알아보십시오