Apache HBase es un almacén de big data distribuido y escalable de forma masiva del ecosistema de Apache Hadoop. Es una base de datos de código abierto no relacional y con versiones que se ejecuta sobre Amazon S3 (con EMRFS) o el sistema de archivos distribuidos de Hadoop (HDFS) y está diseñada para brindar acceso en tiempo real aleatorio y estrictamente uniforme a tablas con miles de millones de filas y millones de columnas. Apache Phoenix se integra con Apache HBase para el acceso SQL de baja latencia con tablas de Apache HBase e índices secundarios para mejorar el desempeño. Además, la excelente integración de Apache HBase con Apache Hadoop, Apache Hive y Apache Pig permite combinar de forma sencilla el análisis masivamente paralelo con el acceso rápido a los datos. El modelo de datos, el desempeño y la tolerancia a fallos de Apache HBase son ideales para cargas de trabajo en aplicaciones de tecnología de publicidad, análisis web y servicios financieros con datos de serie de tiempo, y mucho más.

Apache HBase dispone de compatibilidad nativa con Amazon EMR, para crear de forma rápida y sencilla clústeres administrados de Apache HBase a través de la consola de administración de AWS, la CLI de AWS o la API de Amazon EMR. Además, puede utilizar características adicionales de Amazon EMR, incluido el uso de Amazon S3 como almacén de datos para reducir costos, o la creación de clústeres de réplica de lectura para aumentar la disponibilidad, y aprovechar una gran variedad de instancias de Amazon EC2 y volúmenes de Amazon EBS para el hardware de su clúster, realizar backups y recuperación en Amazon S3 con el sistema de archivos de Amazon EMR (EMRFS), sustitución de nodos automática y comandos sencillos de cambio de capacidad para agregar o eliminar instancias en el clúster. Además, puede utilizar Hue para visualizar sus tablas de HBase y explorar sus datos. Más información sobre Apache HBase en Amazon EMR.

hbase_logo_with_orca_large

Comience con Apache HBase en Amazon EMR

Cree una cuenta gratuita

¿Necesita ayuda? ¡Pregúntenos!


S3_Sketch_Available

Apache HBase está diseñado para mantener el desempeño a la par que escalar a cientos de nodos, respaldando miles de millones de filas y millones de columnas. Utiliza Amazon S3 (con EMRFS) o el sistema de archivos distribuidos de Hadoop (HDFS) como almacén de datos tolerante a errores. Amazon EMR es compatible con una amplia variedad de tipos de instancias y volúmenes de Amazon EBS, de modo que puede personalizar el hardware de su clúster para optimizar el costo y el desempeño. Además, puede usar Apache Phoenix para SQL de baja latencia con tablas de HBase de gran tamaño o crear índices secundarios para mejorar el desempeño.

S3_Sketch_HighPerformance

Mediante la excelente integración con proyectos en el ecosistema de Apache Hadoop, puede ejecutar de forma sencilla cargas de trabajo de análisis masivamente paralelo en datos almacenados en tablas de HBase. Puede instalar con facilidad Apache Phoenix, Apache Hadoop, Apache Hive, Apache Pig y otras aplicaciones de big data de código abierto en su clúster de Amazon EMR junto con Apache HBase y utilizar estas herramientas para ejecutar informes, consultas SQL y otras cargas de trabajo de análisis en sus datos en Apache HBase. Además, puede utilizar estas herramientas para importar/exportar grandes cantidades de datos de Amazon S a tablas de Apache HBase, o usar Apache Hive para reunir datos de Apache HBase con tablas externas en Amazon S3.

Benefit_Compliance_Orange

Apache HBase es un almacén de columnas anchas que le permite definir columnas arbitrarias para cada fila con fines de filtrado. Además, HBase añade un sello de tiempo a cada celda y es capaz de almacenar versiones anteriores, lo que le permite almacenar y acceder con facilidad al historial de un conjunto de datos. Cada celda es una matriz de bytes y puede almacenar una carga en el rango de MB, aportándole flexibilidad sobre los tipos de datos almacenados en su tabla. Apache Phoenix y Apache Hive facilitan el acceso SQL con tablas de Apache HBase.

Benefit_Integration_Green

Puede implementar con facilidad un clúster de Amazon EMR totalmente configurado que ejecute Apache HBase y otras aplicaciones de los ecosistemas de Apache Hadoop y Apache Spark en cuestión de minutos. Amazon EMR sustituye de forma automática los nodos que no funcionan bien. Además, puede cambiar el tamaño de su clúster en función de sus necesidades. Puede administrar tablas y buscar datos en Apache HBase con la UI de Hue y realizarbackups y restaurar tablas de forma sencilla en Amazon S3 con EMRFS y Hadoop MapReduce. Además, Apache HBase en Amazon EMR puede utilizar los conjuntos de características de cifrado, la autenticación con Kerberos y la autorización de Amazon EMR. Haga clic aquí para obtener más información sobre las características de Amazon EMR.

Benefit_Simple_Red

Amazon EMR permite usar Amazon S3 como almacén de datos para Apache HBase mediante el sistema de archivos EMR. Utilizar Amazon S3 como almacén de datos permite separar los nodos de almacenamiento y de cómputo del clúster, lo que ofrece varias ventajas respecto al sistema de archivos distribuido de Hadoop (HDFS) en el clúster. Permite ajustar el tamaño del clúster según los requisitos de cómputo en lugar del almacenamiento de datos HDFS para ahorrar costos, obtener la disponibilidad y durabilidad del almacenamiento S3, escalar los nodos de cómputo sin afectar al almacenamiento subyacente, y terminar el clúster para ahorrar costos y restaurarlo rápidamente. También puede crear y configurar un clúster de réplica de lectura en otra zona de disponibilidad de Amazon EC2 que proporciona acceso de solo lectura a los mismos datos que el clúster principal, lo que garantiza un acceso ininterrumpido a los datos aunque el clúster principal no esté disponible.


FINRA

FINRA, la Autoridad Reguladora de la Industria Financiera, es la mayor organización reguladora de títulos valor independiente de Estados Unidos, que monitoriza y regula las prácticas del comercio financiero. FINRA utiliza Amazon EMR para ejecutar Apache HBase en Amazon S3 para acceder de forma aleatoria a 3 billones de registros (cantidad que incrementa en milles de millones al día) para que una aplicación interactiva busque y visualice eventos del mercado relacionados. Al separar el almacenamiento y la capacidad informática, FINRA puede almacenar una única copia de sus datos en Amazon S3 y cambiar el tamaño del clúster en función de la capacidad informática necesaria, en lugar de modificar el clúster para almacenar datos en HDFS con replicación x3. Esto se traduce en unos ahorros de costos de más del 60% por año, escalabilidad sencilla de la capacidad informática y la reducción del tiempo de restauración de un clúster en una nueva zona de disponibilidad de EC2 de días a menos de 30 minutos.

Monster.com

Monster, líder mundial en la conexión de personas y trabajos, utiliza Apache HBase en Amazon EMR para almacenar datos de secuencias de clics y campañas publicitarias para el análisis de los datos recibidos. De este modo, puede monitorizar el desempeño de distintos segmentos de clientes en una campaña determinada con tal minuciosidad que se puede visualizar cada impresión. El equipo de análisis de Monster puede examinar con facilidad las filas y sumar el número de vistas y clics por usuario para identificar la actividad en la campaña. Además, utiliza la excelente integración de Apache HBase con el ecosistema de Apache Hadoop. Monster ejecuta Apache Hive en un clúster de Amazon EMR independiente para realizar consultas en la tabla de HBase con SQL, que resulta útil para realizar más análisis y exportar datos de Apache HBase a Amazon Redshift.