Apache HBase no Amazon EMR

O Amazon EMR oferece suporte nativo ao Apache HBase para oferecer acesso em tempo real a tabelas que podem ser escaladas para bilhões de linhas e milhões de colunas. O Amazon EMR combina os benefícios do Apache HBase de código aberto (armazenamento de dados orientado por colunas em sistemas distribuídos) com os recursos de durabilidade, performance, integração e ferramentas do Amazon EMR. Você pode obter gravações e leituras altamente consistentes e consultar resultados em petabytes de dados em milissegundos para alimentar workloads de missão crítica em serviços financeiros, tecnologia de anúncios, análises da Web e aplicações usando dados de séries temporais. Seus aplicações Apache HBase existentes funcionarão no Amazon EMR sem nenhuma alteração no código. Saiba mais sobre o Apache HBase no Amazon EMR.

Atributos e benefícios

Durabilidade

O Amazon EMR permite o uso do Amazon S3 como um datastore para Apache HBase usado o EMR File System. Usar o Amazon S3 como armazenamento de dados separa sua computação do armazenamento e oferece várias vantagens sobre o Sistema de Arquivos Distribuído do Hadoop (HDFS) no cluster do Apache Hadoop. Você pode economizar ao dimensionar seu cluster de acordo com seus requisitos de computação em vez dos requisitos de armazenamento de dados do HDFS, ao mesmo tempo que obtém a disponibilidade e a durabilidade do Amazon S3 para seu armazenamento de dados. Você pode escalar os nós de computação sem afetar o armazenamento subjacente, encerrar o cluster quando o trabalho terminar para economizar custos e restaurar rapidamente o cluster quando precisar. Também é possível criar e configurar um cluster de réplica de leitura em uma zona de disponibilidade do Amazon EC2 na qual o cluster primário reside, para obter acesso somente leitura aos mesmos dados e garantir acesso ininterrupto aos seus dados, mesmo que o cluster primário fique indisponível. O Amazon EMR também mantém arquivos de dados Apache HBase (HFiles) no Amazon S3.

Performance

O Apache HBase foi projetado para manter a performance enquanto se expande para centenas de nós, oferecendo suporte para acesso aleatório a bilhões de linhas e milhões de colunas. Ele usa o Amazon S3 (com EMRFS) ou o Hadoop Distributed Filesystem (HDFS) como um datastore tolerante a falhas. O Amazon EMR oferece suporte a uma ampla variedade de tipos de instâncias e volumes do Amazon EBS, para que você possa personalizar o hardware do cluster, otimizando os custos e a performance.

Integração

Você pode executar facilmente um cluster do Amazon EMR totalmente configurado executando o Apache HBase e outras aplicações do ecossistema do Apache Hadoop e do Apache Spark em minutos. O Amazon EMR substitui automaticamente nós com baixa performance, e você pode redimensionar facilmente o cluster para que ele atenda aos seus requisitos. Você pode gerenciar tabelas e procurar por dados no Apache HBase usando a IU do Hue, além de fazer backup e restaurar tabelas facilmente no Amazon S3 usando o EMRFS e o Hadoop MapReduce. O Apache HBase no Amazon EMR também pode utilizar os conjuntos de atributos de autorização, autenticação do Kerberos e criptografia do Amazon EMR. Clique aqui para obter mais detalhes sobre os atributos do Amazon EMR.

Ferramentas

O Amazon EMR permite o uso do Amazon S3 como um datastore do Apache HBase usado o EMR File System. A separação do armazenamento e dos nós de computação de um cluster usando o Amazon S3 como datastore disponibiliza várias vantagens com relação ao HDFS no cluster. É possível economizar custos ao dimensionar o cluster de acordo com os requisitos computacionais em vez de usar o armazenamento físico de dados HDFS, obter a disponibilidade e a resiliência do armazenamento do S3, escalar nós computacionais sem causar impacto no armazenamento subjacente, além de encerrar o cluster para reduzir gastos e restaurá-lo rapidamente. Também é possível criar e configurar um cluster de réplica de leitura em outra zona de disponibilidade do Amazon EC2 que disponibiliza acesso do tipo somente leitura aos mesmos dados do cluster principal, garantindo acesso ininterrupto aos dados, mesmo se o cluster principal ficar indisponível.

Histórias de sucesso de clientes com o HBase e o Amazon EMR

A FINRA usa o Amazon EMR para executar o Apache HBase no Amazon S3 a fim de acessar rapidamente trilhões de registros comerciais e economizar mais de 60% nos custos.