Apache HBase es un almacén de big data distribuido y escalable de forma masiva del ecosistema de Apache Hadoop. Es una base de datos de código abierto no relacional y con versiones que se ejecuta sobre el sistema de archivos distribuidos de Hadoop (HDFS) y está diseñada para brindar acceso en tiempo real aleatorio y estrictamente uniforme a tablas con miles de millones de filas y millones de columnas. Apache Phoenix se integra con Apache HBase para el acceso SQL de baja latencia con tablas de Apache HBase e índices secundarios para mejorar el desempeño. Además, la excelente integración de Apache HBase con Apache Hadoop, Apache Hive y Apache Pig permite combinar de forma sencilla el análisis masivamente paralelo con el acceso rápido a los datos. El modelo de datos, el desempeño y la tolerancia a fallos de Apache HBase son ideales para cargas de trabajo en aplicaciones de tecnología de publicidad, análisis web y servicios financieros con datos de serie de tiempo, y mucho más.

Apache HBase dispone de compatibilidad nativa con Amazon EMR y puede crear de forma rápida y sencilla clústeres administrados de Apache HBase a través de la consola de administración de AWS, la CLI de AWS o la API de Amazon EMR. Además, puede utilizar características adicionales de Amazon EMR, incluyendo una gran variedad de instancias de Amazon EC2 y volúmenes de Amazon EBS para el hardware de su clúster, realizar backups y recuperación en Amazon S3 con el sistema de archivos de Amazon EMR (EMRFS), sustitución de nodos automática y comandos sencillos de cambio de capacidad para agregar o eliminar instancias en el clúster. Además, puede utilizar Hue para visualizar sus tablas de HBase y explorar sus datos. Más información sobre Apache HBase en Amazon EMR.

Comience con Apache HBase en Amazon EMR

Cree una cuenta gratuita

¿Necesita ayuda? ¡Pregúntenos!


S3_Sketch_Available

Apache HBase está diseñado para mantener el desempeño a la par que escalar a cientos de nodos, respaldando miles de millones de filas y millones de columnas. Utiliza el sistema de archivos distribuidos de Hadoop (HDFS) como almacén de datos tolerante a fallos, que almacena archivos con replicación x3 en todo su clúster. Amazon EMR es compatible con una amplia variedad de tipos de instancias y volúmenes de Amazon EBS, de modo que puede personalizar el hardware de su clúster para optimizar el costo y el desempeño. Además, puede usar Apache Phoenix para SQL de baja latencia con tablas de HBase de gran tamaño o crear índices secundarios para mejorar el desempeño.

S3_Sketch_HighPerformance

Mediante la excelente integración con proyectos en el ecosistema de Apache Hadoop, puede ejecutar de forma sencilla cargas de trabajo de análisis masivamente paralelo en datos almacenados en tablas de HBase. Puede instalar con facilidad Apache Phoenix, Apache Hadoop, Apache Hive, Apache Pig y otras aplicaciones de big data de código abierto en su clúster de Amazon EMR junto con Apache HBase y utilizar estas herramientas para ejecutar informes, consultas SQL y otras cargas de trabajo de análisis en sus datos en Apache HBase. Además, puede utilizar estas herramientas para importar/exportar grandes cantidades de datos de Amazon S3 o HDFS a tablas de Apache HBase, o usar Apache Hive para reunir datos de Apache HBase con tablas externas en Amazon S3.

S3_Sketch_Simple

Apache HBase es un almacén de columnas anchas que le permite definir columnas arbitrarias para cada fila con fines de filtrado. Además, HBase añade un sello de tiempo a cada celda y es capaz de almacenar versiones anteriores, lo que le permite almacenar y acceder con facilidad al historial de un conjunto de datos. Cada celda es una matriz de bytes y puede almacenar una carga en el rango de MB, aportándole flexibilidad sobre los tipos de datos almacenados en su tabla. Apache Phoenix y Apache Hive facilitan el acceso SQL con tablas de Apache HBase.

Benefit_Workflow_Green

Puede implementar con facilidad un clúster de Amazon EMR totalmente configurado que ejecute Apache HBase y otras aplicaciones de los ecosistemas de Apache Hadoop y Apache Spark en cuestión de minutos. Amazon EMR sustituye de forma automática los nodos que no funcionan bien. Además, puede cambiar el tamaño de su clúster en función de sus necesidades. Puede administrar tablas y buscar datos en Apache HBase con la UI de Hue y realizarbackups y restaurar tablas de forma sencilla en Amazon S3 con EMRFS y Hadoop MapReduce. Además, Apache HBase en Amazon EMR puede utilizar los conjuntos de características de autorización y cifrado de Amazon EMR. Haga clic aquí para obtener más información sobre las características de Amazon EMR.


Monster.com

Monster, líder mundial en la conexión de personas y trabajos, utiliza Apache HBase en Amazon EMR para almacenar datos de secuencias de clics y campañas publicitarias para el análisis de los datos recibidos. De este modo, puede monitorizar el desempeño de distintos segmentos de clientes en una campaña determinada con tal minuciosidad que se puede visualizar cada impresión. El equipo de análisis de Monster puede examinar con facilidad las filas y sumar el número de vistas y clics por usuario para identificar la actividad en la campaña. Además, utiliza la excelente integración de Apache HBase con el ecosistema de Apache Hadoop. Monster ejecuta Apache Hive en un clúster de Amazon EMR independiente para realizar consultas en la tabla de HBase con SQL, que resulta útil para realizar más análisis y exportar datos de Apache HBase a Amazon Redshift.