Apache HBase es un almacén de big data distribuido y escalable de forma masiva del ecosistema de Apache Hadoop. Es una base de datos de código abierto no relacional y con versiones que se ejecuta sobre Amazon S3 (con EMRFS) o el sistema de archivos distribuidos de Hadoop (HDFS) y está diseñada para brindar acceso en tiempo real aleatorio y estrictamente uniforme a tablas con miles de millones de filas y millones de columnas. Apache Phoenix se integra con Apache HBase para el acceso SQL de baja latencia con tablas de Apache HBase e índices secundarios para mejorar el desempeño. Además, la estrecha integración de Apache HBase con Apache Hadoop, Apache Hive y Apache Pig permite combinar de forma sencilla análisis masivos en paralelo con el acceso rápido a los datos. El modelo de datos, el desempeño y la tolerancia a fallos de Apache HBase son ideales para cargas de trabajo en aplicaciones de tecnología publicitaria, análisis web y servicios financieros con datos de serie temporal, y mucho más.

Apache HBase dispone de compatibilidad nativa con Amazon EMR, para crear de forma rápida y sencilla clústeres administrados de Apache HBase a través de la consola de administración de AWS, la CLI de AWS o la API de Amazon EMR. Además, puede utilizar características adicionales de Amazon EMR, incluido el uso de Amazon S3 como almacén de datos para reducir costos, o la creación de clústeres de réplica de lectura para aumentar la disponibilidad, y aprovechar una gran variedad de instancias de Amazon EC2 y volúmenes de Amazon EBS para el hardware de su clúster, realizar copias de seguridad y recuperación en Amazon S3 con el sistema de archivos de Amazon EMR (EMRFS), sustitución de nodos automática y comandos sencillos de cambio de tamaño para agregar o eliminar instancias en el clúster. Además, puede utilizar Hue para visualizar sus tablas de HBase y explorar sus datos. Más información sobre Apache HBase y Apache HBase en Amazon EMR.

Características y beneficios

Rendimiento a escala

Apache HBase está diseñado para mantener el rendimiento mientras escala horizontalmente a cientos de nodos, con capacidad para miles de millones de filas y millones de columnas. Utiliza Amazon S3 (con EMRFS) o el sistema de archivos distribuidos de Hadoop (HDFS) como almacén de datos tolerante a errores. Amazon EMR es compatible con una amplia variedad de tipos de instancias y volúmenes de Amazon EBS, de modo que puede personalizar el hardware de su clúster para optimizar el costo y el rendimiento. Además, puede usar Apache Phoenix para SQL de baja latencia con tablas de HBase de gran tamaño o crear índices secundarios para mejorar el rendimiento.

Cargas de trabajo de análisis

Mediante la estrecha integración con proyectos en el ecosistema de Apache Hadoop, puede ejecutar de forma sencilla cargas de trabajo de análisis paralelas de manera masiva en datos almacenados en tablas de HBase. Puede instalar con facilidad Apache Phoenix, Apache Hadoop, Apache Hive, Apache Pig y otras aplicaciones de big data de código abierto en su clúster de Amazon EMR junto con Apache HBase y utilizar estas herramientas para ejecutar informes, consultas SQL y otras cargas de trabajo de análisis en sus datos en Apache HBase. Además, puede utilizar estas herramientas para importar o exportar grandes cantidades de datos a tablas de Apache HBase, o usar Apache Hive para reunir datos de Apache HBase con tablas externas en Amazon S3.

Integración con Amazon EMR

Puede implementar con facilidad un clúster de Amazon EMR totalmente configurado que ejecute Apache HBase y otras aplicaciones de los ecosistemas de Apache Hadoop y Apache Spark en cuestión de minutos. Amazon EMR sustituye de forma automática los nodos que no funcionan bien. Además, puede cambiar el tamaño de su clúster en función de sus necesidades. Puede administrar tablas y buscar datos en Apache HBase con la UI de Hue y realizar copias de seguridad y restaurar tablas de forma sencilla en Amazon S3 con EMRFS y Hadoop MapReduce. Además, Apache HBase en Amazon EMR puede utilizar los conjuntos de características de cifrado, la autenticación con Kerberos y la autorización de Amazon EMR. Haga clic aquí para obtener más información sobre las características de Amazon EMR.

Almacenamiento de Amazon S3 para HBase

Amazon EMR permite usar Amazon S3 como almacén de datos para Apache HBase mediante el sistema de archivos EMR. Utilizar Amazon S3 como almacén de datos permite separar los nodos de almacenamiento y de cómputo del clúster, lo que ofrece varias ventajas respecto al sistema de archivos distribuido de Hadoop (HDFS) en el clúster. Permite ajustar el tamaño del clúster según los requisitos de cómputo en lugar del almacenamiento de datos HDFS para ahorrar costos, obtener la disponibilidad y durabilidad del almacenamiento S3, escalar los nodos de cómputo sin afectar al almacenamiento subyacente, y terminar el clúster para ahorrar costos y restaurarlo rápidamente. También puede crear y configurar un clúster de réplica de lectura en otra zona de disponibilidad de Amazon EC2 que proporciona acceso de solo lectura a los mismos datos que el clúster principal, lo que garantiza un acceso ininterrumpido a los datos aunque el clúster principal no esté disponible.

Casos de éxito de los clientes con HBase y Amazon EMR

Finra

FINRA, la Autoridad Reguladora de la Industria Financiera, es la mayor organización reguladora de títulos de valor independiente de Estados Unidos. Su tarea consiste en monitorizar y regular las prácticas del comercio financiero. FINRA utiliza Amazon EMR para ejecutar Apache HBase en Amazon S3 para acceder de forma aleatoria a 3 billones de registros (cantidad que incrementa en miles de millones al día) para que una aplicación interactiva busque y visualice eventos del mercado relacionados. Al separar el almacenamiento y la capacidad informática, FINRA puede almacenar una única copia de sus datos en Amazon S3 y cambiar el tamaño del clúster en función de la capacidad informática necesaria, en lugar de modificar el clúster para almacenar datos en HDFS con replicación x3. Esto se traduce en un ahorro de costos mayor al 60 % anual, escalabilidad sencilla de la capacidad de cómputo y reducción del tiempo de restauración de un clúster en una nueva zona de disponibilidad de EC2 de días a menos de 30 minutos.

Monster

Monster, líder mundial en la conexión de personas y trabajos, utiliza Apache HBase en Amazon EMR para almacenar datos de secuencias de clics y campañas publicitarias para el análisis de los datos recibidos. De este modo, puede monitorizar el desempeño de distintos segmentos de clientes en una campaña determinada con tal minuciosidad que se puede visualizar cada impresión. El equipo de análisis de Monster puede examinar con facilidad las filas y sumar el número de vistas y clics por usuario para identificar la actividad en la campaña. Además, utiliza la excelente integración de Apache HBase con el ecosistema de Apache Hadoop. Monster ejecuta Apache Hive en un clúster de Amazon EMR independiente para realizar consultas en la tabla de HBase con SQL, que resulta útil para realizar más análisis y exportar datos de Apache HBase a Amazon Redshift.

Más información sobre los precios de Amazon EMR

Visite la página de precios
¿Listo para crear?
Introducción a Amazon EMR
¿Tiene más preguntas?
Contacte con nosotros