Apache HBase en Amazon EMR: plataforma para macrodatos. Amazon Web Services

Amazon EMR admite de forma nativa Apache HBase para proporcionarle acceso en tiempo real a tablas que pueden escalarse a miles de millones de filas y millones de columnas. Amazon EMR combina las ventajas de Apache HBase de código abierto (almacenamiento de datos orientado a columnas en sistemas distribuidos) con las capacidades de durabilidad, rendimiento, integración y herramientas de Amazon EMR. Puede obtener escrituras y lecturas muy coherentes y consultar los resultados en petabytes de datos en cuestión de milisegundos para impulsar las cargas de trabajo esenciales en los servicios financieros, la tecnología publicitaria, el análisis web y las aplicaciones mediante datos de series temporales. Sus aplicaciones Apache HBase existentes funcionarán en Amazon EMR sin ningún cambio de código. Más información sobre Apache HBase en Amazon EMR.

Características y beneficios

Durabilidad

Amazon EMR permite usar Amazon S3 como almacén de datos para Apache HBase mediante el sistema de archivos EMR. El uso de Amazon S3 como almacén de datos desacopla la computación del almacenamiento y ofrece varias ventajas con respecto al sistema de archivos distribuido de Hadoop (HDFS) en clúster de Apache Hadoop. Puede ahorrar costos si ajusta el tamaño del clúster a sus requisitos informáticos en lugar de a los requisitos de almacenamiento de datos de HDFS, a la vez que obtiene la disponibilidad y la durabilidad de Amazon S3 para el almacenamiento de datos. Puede escalar los nodos de cómputo sin afectar al almacenamiento subyacente, terminar el clúster cuando finalice el trabajo para ahorrar costos y restaurar rápidamente el clúster cuando lo necesite. También puede crear y configurar un clúster de réplica de lectura en una zona de disponibilidad de Amazon EC2 en la que reside el clúster principal, para obtener acceso de solo lectura a los mismos datos y garantizar un acceso ininterrumpido a los datos aunque el clúster principal no esté disponible. Amazon EMR también conserva los archivos de datos de Apache HBase (HFiles) en Amazon S3.

Rendimiento

Apache HBase está diseñado para mantener el rendimiento mientras escala horizontalmente a cientos de nodos, lo que permite el acceso aleatorio a miles de millones de filas y millones de columnas. Utiliza Amazon S3 (con EMRFS) o el sistema de archivos distribuidos de Hadoop (HDFS) como almacén de datos tolerante a errores. Amazon EMR es compatible con una amplia variedad de tipos de instancias y volúmenes de Amazon EBS, de modo que puede personalizar el hardware de su clúster para optimizar el costo y el rendimiento.

Integración

Puede implementar con facilidad un clúster de Amazon EMR totalmente configurado que ejecute Apache HBase y otras aplicaciones de los ecosistemas de Apache Hadoop y Apache Spark en cuestión de minutos. Amazon EMR sustituye de forma automática los nodos que no funcionan bien. Además, puede cambiar el tamaño de su clúster en función de sus necesidades. Puede administrar tablas y buscar datos en Apache HBase con la UI de Hue y realizar copias de seguridad y restaurar tablas de forma sencilla en Amazon S3 con EMRFS y Hadoop MapReduce. Además, Apache HBase en Amazon EMR puede utilizar los conjuntos de características de cifrado, la autenticación con Kerberos y la autorización de Amazon EMR. Haga clic aquí para obtener más información sobre las características de Amazon EMR.

Herramientas

Amazon EMR permite usar Amazon S3 como almacén de datos para Apache HBase mediante el sistema de archivos EMR. Utilizar Amazon S3 como almacén de datos permite separar los nodos de almacenamiento y de cómputo del clúster, lo que ofrece varias ventajas respecto al sistema de archivos distribuido de Hadoop (HDFS) en el clúster. Permite ajustar el tamaño del clúster según los requisitos de cómputo en lugar del almacenamiento de datos HDFS para ahorrar costos, obtener la disponibilidad y durabilidad del almacenamiento S3, escalar los nodos de cómputo sin afectar al almacenamiento subyacente, y terminar el clúster para ahorrar costos y restaurarlo rápidamente. También puede crear y configurar un clúster de réplica de lectura en otra zona de disponibilidad de Amazon EC2 que proporciona acceso de solo lectura a los mismos datos que el clúster principal, lo que garantiza un acceso ininterrumpido a los datos aunque el clúster principal no esté disponible.

Casos de éxito de los clientes con HBase y Amazon EMR

FINRA usa Amazon EMR para ejecutar Apache HBase en Amazon S3 para acceder rápidamente a billones de registros comerciales y ahorrar más de un 60 % de costos.

Monster usa Apache HBase en Amazon EMR para almacenar datos de campañas publicitarias y de secuencias de clics y ejecutar consultas SQL con Apache Hive.