Apache HBase 是 Apache Hadoop 生态系统中的一种高度可扩展的分布式大数据存储。它是一个开源的非关系型版本控制数据库,运行于 Amazon S3(使用 EMRFS)或 Hadoop 分布式文件系统 (HDFS) 之上,用于严格一致地以随机方式实时访问含有数十亿行和数百万列的表。Apache Phoenix 与 Apache HBase 集成,以对 Apache HBase 表进行低延迟的 SQL 访问,以及进行二级索引,以提升性能。此外,Apache HBase 还与 Apache Hadoop、Apache Hive 和 Apache Pig 紧密集成,因此,您可以轻松将大量并行分析与快速数据访问组合起来。Apache HBase 的数据模型、吞吐量和容错能力非常适合广告技术、Web 分析、金融服务、使用时间序列数据的应用程序等的工作负载。
Amazon EMR 原生支持 Apache HBase,因此您可以快速轻松地通过 AWS 管理控制台、AWS CLI 或 Amazon EMR API 创建托管的 Apache HBase 集群。您可以利用其他 Amazon EMR 功能,其中包括使用 Amazon S3 作为数据存储以降低成本、为提高可用性创建只读副本集群、为集群的硬件选择大量不同的 Amazon EC2 实例和 Amazon EBS 卷、使用 Amazon EMR 文件系统 (EMRFS) 备份和还原到 Amazon S3、自动替换节点,以及轻松调整命令以在集群中添加或移除实例。而且,您还可以使用 Hue 直观展示您的 HBase 表以及浏览您的数据。详细了解 Apache HBase 和 Amazon EMR 上的 Apache HBase。
功能和优势
规模性能
Apache HBase 旨在维持性能的同时,扩展至数百个节点,同时支持数十亿行和数百万列。它利用 Amazon S3 (使用 EMRFS) 或 Hadoop 分布式文件系统 (HDFS) 作为容错数据存储。Amazon EMR 支持大量不同的实例类型和 Amazon EBS 卷,因此,您可以自定义您的集群硬件以优化成本和性能。此外,您还可以使用 Apache Phoenix 对大量 HBase 表进行低延迟的 SQL 访问,或创建二级索引来提升性能。
分析工作负载
通过与 Apache Hadoop 生态系统中的项目紧密集成,您可以轻松地对 HBase 表中存储的数据大规模运行并行分析工作负载。在 Amazon EMR 集群上安装 Apache HBase 时,可以轻松地同时安装 Apache Phoenix、Apache Hadoop、Apache Hive、Apache Pig 及其他开源的大数据应用程序,并利用这些工具针对 Apache HBase 中您的数据运行报告、SQL 查询或其他分析工作负载。此外,您还可以利用这些工具向 Apache HBase 表批量导入/导出数据,或使用 Apache Hive 将 Apache HBase 中的数据加入 Amazon S3 的外部表中。
与 Amazon EMR 集成
您可以在几分钟内轻松启动配置完全的 Amazon EMR 集群,其中运行 Apache HBase 及其他 Apache Hadoop 和 Apache Spark 生态系统应用程序。Amazon EMR 可自动替换性能较差的节点,而且您可轻松调整集群大小来满足自己的要求。您可以使用 Hue UI 在 Apache HBase 中管理表和浏览数据,还可以使用 EMRFS 和 Hadoop MapReduce 轻松将表备份和还原到 Amazon S3。此外,Amazon EMR 上的 Apache HBase 可利用 Amazon EMR 的授权、Kerberos 身份验证和加密功能集。单击此处了解有关 Amazon EMR 功能的更多详细信息。
适用于 HBase 的 Amazon S3 存储
对于采用 EMR 文件系统的 Apache HBase,Amazon EMR 使您能够将 Amazon S3 作为数据存储。使用 Amazon S3 作为数据存储可将集群的存储和计算节点分隔开来,从而提供多种优势(相比在集群上使用 HDFS)。您可以通过针对计算要求调整集群大小而非使用 HDFS 数据存储来节省成本、获享 S3 存储的可用性和持久性、在不影响底层存储的情况下扩展计算节点,以及终止集群来节省成本并快速将其还原。您还能在其他 Amazon EC2 可用区创建和配置只读副本集群,允许其以只读方式访问面向主集群的数据,从而确保在主集群不可用时能够继续访问数据。
利用 HBase 和 Amazon EMR 取得成功的客户案例

Monster 是从事猎头业务的全球领导者,它利用 Amazon EMR 上的 Apache HBase,存储点击流和广告营销活动数据,进行下游分析。这样,他们便能够以单次曝光量为粒度监控不同的客户群在既定营销活动中的表现有何不同。Monster 的分析团队可轻松浏览各行内容来合计每位用户的查看量和点击量,从而确定营销活动。此外,他们还利用 Apache HBase 与 Apache Hadoop 生态系统的紧密集成。Monster 在独立的 Amazon EMR 集群上运行 Apache Hive,可以使用 SQL 查询其 HBase 表,这非常有助于执行额外分析,以及从 Apache HBase 向 Amazon Redshift 导出数据。
博客文章


了解有关 Amazon EMR 定价的更多信息