O Apache HBase é um datastore de big data altamente escalável e distribuído no ecossistema do Apache Hadoop. É um banco de dados de código aberto, não relacional e com controle de versão executado junto com o Amazon S3 (usando o EMRFS) ou o Hadoop Distributed Filesystem (HDFS). Ele foi criado para dar acesso aleatório, totalmente estável e em tempo real a tabelas com bilhões de linhas e milhões de colunas. O Apache Phoenix integra-se ao Apache HBase para obter acesso SQL de baixa latência por meio das tabelas do Apache HBase, além de indexação secundária para conseguir melhor desempenho. Além disso, o Apache HBase tem uma sólida integração com o Apache Hadoop, o Apache Hive e o Apache Pig para que você possa combinar facilmente a análise paralela em grande escala com o acesso rápido a dados. O modelo de dados, o throughput e a tolerância a falhas do Apache HBase são ideais para cargas de trabalho em tecnologia de anúncios, análise da web, serviços financeiros, aplicativos usando dados em série temporal, e muito mais.

O Apache HBase é aceito de modo nativo no Amazon EMR, portanto você pode criar rápido e facilmente clusters gerenciados do Apache HBase por meio do Console de Gerenciamento da AWS, da AWS CLI ou da API do Amazon EMR. Você pode utilizar recursos adicionais do Amazon EMR, inclusive usar o Amazon S3 como um datastore para reduzir custos, criar clusters de réplica de leitura para obter uma disponibilidade maior, beneficiar-se da escolha de uma ampla variedade de instâncias do Amazon EC2 e volumes do Amazon EBS para o hardware do cluster, o backup e a restauração no Amazon S3 usando o Amazon EMR File System (EMRFS), a substituição automática de nós e os comandos de redimensionamento de fácil utilização para adicionar ou remover instâncias do cluster. Além disso, você pode usar o Hue para visualizar suas tabelas do HBase e explorar seus dados. Saiba mais sobre o Apache HBase no Amazon EMR.

hbase_logo_with_orca_large

Comece a usar o Apache HBase no Amazon EMR

Criar uma conta gratuita

Precisa de ajuda? Fale conosco.


S3_Sketch_Available

O Apache HBase foi criado para manter o desempenho enquanto aumenta a escalabilidade horizontal de centenas de nós, sustentando bilhões de linhas e milhões de colunas. Ele usa o Amazon S3 (com EMRFS) ou o Hadoop Distributed Filesystem (HDFS) como um datastore tolerante a falhas. O Amazon EMR é compatível com uma ampla variedade de tipos de instância e volumes do Amazon EBS para que você possa personalizar o hardware do cluster, otimizando custos e desempenho. Além disso, você pode usar o Apache Phoenix para SQL de baixa latência nas grandes tabelas do HBase ou criar índices secundários para obter um melhor desempenho.

S3_Sketch_HighPerformance

Por meio da sólida integração com projetos no ecossistema do Apache Hadoop, você pode facilmente executar cargas de trabalho de análise paralela em grande escala nos dados armazenados nas tabelas do HBase. Você pode instalar facilmente o Apache Phoenix, o Apache Hadoop, o Apache Hive, o Apache Pig e outras aplicações de big data de código aberto no cluster do Amazon EMR junto com o Apache HBase, além de utilizar essas ferramentas para executar geração de relatórios, consultas SQL ou outras cargas de trabalho de análise nos seus dados no Apache HBase. Também é possível usar essas ferramentas para importar/exportar dados em alto volume para as/das tabelas do Apache HBase ou usar o Apache Hive para fazer a junção de dados do Apache HBase com as tabelas externas no Amazon S3.

Benefit_Compliance_Orange

O Apache HBase é um armazenamento de coluna ampla, o que permite que você defina colunas arbitrárias para cada linha para fins de filtragem. Além disso, o HBase adiciona um carimbo de data e hora à cada célula e pode manter versões anteriores, permitindo que você armazene e acesse facilmente a origem de um conjunto de dados. Cada célula é uma matriz de bytes e pode armazenar um payload em um intervalo de MB, o que oferece flexibilidade sobre os tipos de dados armazenados na tabela. O Apache Phoenix e o Apache Hive permitem acesso SQL por meio das tabelas do Apache HBase.

Benefit_Integration_Green

Você pode executar facilmente um cluster do Amazon EMR totalmente configurado executando o Apache HBase e outros aplicativos do ecossistema do Apache Hadoop e do Apache Spark em minutos. O Amazon EMR substitui automaticamente nós com baixo desempenho, e você pode redimensionar facilmente o cluster para que ele atenda aos seus requisitos. Você pode gerenciar tabelas e procurar por dados no Apache HBase usando a IU do Hue, além de fazer backup e restaurar tabelas facilmente no Amazon S3 usando o EMRFS e o Hadoop MapReduce. O Apache HBase no Amazon EMR também pode utilizar os conjuntos de recursos de autorização, autenticação do Kerberos e criptografia do Amazon EMR. Clique aqui para obter mais detalhes sobre os recursos do Amazon EMR.

Benefit_Simple_Red

O Amazon EMR permite o uso do Amazon S3 como um datastore do Apache HBase ao utilizar o EMR File System. A separação do armazenamento e dos nós de computação de um cluster usando o Amazon S3 como datastore disponibiliza várias vantagens com relação ao HDFS no cluster. É possível economizar custos ao dimensionar o cluster de acordo com os requisitos computacionais em vez de usar o armazenamento físico de dados HDFS, obter a disponibilidade e a durabilidade do armazenamento do S3, escalar nós computacionais sem causar impacto no armazenamento subjacente, além de encerrar o cluster para reduzir gastos e restaurá-lo rapidamente. Também é possível criar e configurar um cluster de réplica de leitura em outra zona de disponibilidade do Amazon EC2 que disponibiliza acesso do tipo somente leitura aos mesmos dados do cluster principal, garantindo acesso ininterrupto aos dados, mesmo se o cluster principal ficar indisponível.


FINRA

A FINRA (Financial Industry Regulatory Authority) é o maior órgão regulador independente dos Estados Unidos, que monitora e regulamenta práticas do mercado financeiro. A FINRA usa o Amazon EMR para executar o Apache HBase no Amazon S3 para dar acesso aleatório a 3 trilhões de registros (número que cresce aos bilhões diariamente) para que uma aplicação interativa pesquise e exiba eventos relacionados ao mercado. Ao desacoplar o armazenamento e a computação, a FINRA consegue armazenar uma única cópia dos seus dados no Amazon S3 e dimensionar o cluster para a capacidade computacional necessária, em vez de dimensionar o cluster para armazenar dados no HDFS com uma replicação 3 vezes maior. Isso significa economias de custos de mais de 60% ao ano, fácil escalabilidade da computação e redução do tempo de restauração de um cluster em uma nova zona de disponibilidade do EC2, que antes levava dias e agora é realizada em menos de 30 minutos.

Monster.com

A Monster, um líder global na conexão entre pessoas e empregos, utiliza o Apache HBase no Amazon EMR para armazenar sequências de cliques e dados de campanhas publicitárias para a análise de downstream. Isso permite que eles monitorem as diferenças de desempenho entre os segmentos de clientes em uma determinada campanha com a granulariadade de uma impressão única. A equipe de análise da Monster pode facilmente verificar as linhas para agregar o número de visualizações e cliques por usuário para identificar a atividade da campanha. Além disso, eles utilizam a sólida integração do Apache HBase com o ecossistema do Apache Hadoop. A Monster executa o Apache Hive em um cluster separado do Amazon EMR para consultar sua tabela do HBase com SQL, o que é útil para a análise adicional e a exportação de dados do Apache HBase para o Amazon Redshift.