Amazon EMR 기반 Apache HBase

Amazon EMR은 Apache HBase를 기본적으로 지원합니다. 따라서 수십억 개의 행과 수백만 개의 열로 확장되는 테이블에 실시간으로 액세스할 수 있습니다. Amazon EMR을 사용하면 분산 시스템의 열 중심 데이터 스토어인 오픈 소스 Apache HBase의 이점과 함께 Amazon EMR의 내구성, 성능, 통합 및 도구 기능을 활용할 수 있습니다. 쓰기 및 읽기 작업을 매우 일관되게 수행할 수 있으며, 페타바이트 규모의 데이터에 대한 결과를 밀리초 내에 쿼리하여 시계열 데이터를 사용하는 금융 서비스, 광고 기술, 웹 분석 및 애플리케이션의 미션 크리티컬 워크로드를 강화할 수 있습니다. 기존 Apache HBase 애플리케이션은 코드 변경 없이 Amazon EMR에서 작동합니다. Amazon EMR 기반 Apache HBase에 대해 자세히 알아보세요.

기능 및 이점

내구성

Amazon EMR을 사용하면 EMR 파일 시스템을 통해 Amazon S3를 Apache HBase용 데이터 스토어로 사용할 수 있습니다. Amazon S3를 데이터 스토어로 사용하면 컴퓨팅과 스토리지가 분리되기 때문에 Apache Hadoop의 클러스터 내 Hadoop 분산 파일 시스템(HDFS)을 사용할 때보다 몇 가지 장점이 있습니다. HDFS 데이터 스토리지 요구 사항 대신 컴퓨팅 요구 사항에 맞게 클러스터 크기를 조정하여 비용을 절감하는 동시에 데이터 스토리지용 Amazon S3의 가용성 및 내구성을 확보할 수 있습니다. 기반 스토리지에 영향을 주지 않고 컴퓨팅 노드의 규모를 조정하고, 작업 완료 시 클러스터를 종료하여 비용을 절감하고, 필요할 때 클러스터를 신속하게 복원할 수 있습니다. 또한 프라이머리 클러스터가 상주하는 Amazon EC2 가용 영역에 읽기 전용 복제본 클러스터를 생성 및 구성하여 동일한 데이터에 대한 읽기 전용 액세스를 제공함으로써 기본 클러스터를 사용할 수 없게 되더라도 데이터에 대한 지속적인 액세스를 보장할 수 있습니다. Amazon EMR은 Apache HBase 데이터 파일(HFiles)을 Amazon S3에도 유지합니다.

성능

Apache HBase는 수십억 개의 행과 수백만 개의 열의 무작위 액세스를 지원하는 수백 개의 노드로 확장하더라도 성능을 유지하도록 설계되었습니다. 또한, Amazon S3(EMRFS 사용) 또는 Hadoop 분산 파일 시스템(HDFS)을 내결함성 데이터 스토어로 활용합니다. Amazon EMR은 다양한 인스턴스 유형과 Amazon EBS 볼륨을 지원하므로, 비용과 성능에 최적화되도록 클러스터의 하드웨어를 사용자 정의할 수 있습니다.

통합

Apache HBase와 기타 Apache Hadoop 및 Apache Spark 에코시스템 애플리케이션을 실행하는 완전히 구성된 Amazon EMR 클러스터를 몇 분 만에 손쉽게 시작할 수 있습니다. 성능이 저하된 노드는 Amazon EMR에 의해 자동으로 교체됩니다. 사용자는 요구 사항에 맞춰 클러스터 크기를 손쉽게 조정할 수 있습니다. Hue UI를 사용하여 Apache HBase의 테이블을 관리하고 데이터를 탐색하며, EMRFS와 Hadoop MapReduce를 사용하여 Amazon S3에 테이블을 손쉽게 백업 및 복원할 수 있습니다. 또한 Amazon EMR 기반 Apache HBase는 Amazon EMR의 권한 부여, Kerberos 인증 및 암호화 기능 세트를 사용할 수 있습니다. Amazon EMR 기능에 대해 자세히 알아보려면 여기를 클릭하세요.

도구

Amazon EMR을 사용하면 EMR 파일 시스템을 통해 Amazon S3를 Apache HBase용 데이터 스토어로 사용할 수 있습니다. Amazon S3를 데이터 스토어로 사용함으로써 클러스터의 스토리지와 컴퓨팅 노드를 분리하여 클러스터상 HDFS 대비 몇 가지 장점을 제공합니다. HDFS 데이터 스토리지가 아니라 컴퓨팅 요구 사항에 맞춰 클러스터 크기를 조정하여 비용을 절감하고, S3 스토리지의 가용성과 내구성을 확보하고, 기존 스토리지에 영향을 주지 않고 컴퓨팅 노드를 확장하고, 비용 절감을 위해 클러스터를 종료하고 신속하게 이를 복원할 수 있습니다. 또한, 다른 Amazon EC2 가용 영역에 읽기 전용 복제본 클러스터를 생성 및 구성하여 기본 클러스터와 마찬가지로 동일한 데이터에 대한 읽기 전용 액세스를 제공함으로써 기본 클러스터를 사용할 수 없게 되더라도 데이터에 대한 지속적인 액세스를 보장할 수 있습니다.