Apache HBase 是 Apache Hadoop 生态系统中高度可扩展的分布式大数据存储。它是一个开源的非关系型版本控制数据库,运行于 Hadoop 分布式文件系统 (HDFS) 之上,用于严格一致地以随机方式实时访问含有数十亿行和数百万列的表。Apache Phoenix 与 Apache HBase 集成,以对 Apache HBase 表进行低延迟的 SQL 访问,以及进行二级索引,以提升性能。此外,Apache HBase 还与 Apache Hadoop、Apache Hive 和 Apache Pig 紧密集成,因此,您可以轻松将大量并行分析与快速数据访问组合起来。Apache HBase 的数据模型、吞吐量和容错能力能够与广告技术、Web 分析、金融服务、使用时间序列数据的应用程序等的工作负载完美匹配。
Amazon EMR 原本就支持 Apache HBase,而且您可以快速轻松地从 AWS 管理控制台、AWS CLI 或 Amazon EMR API 创建托管 Apache HBase 集群。除此之外,您还可以利用其他 Amazon EMR 功能,其中包括为集群的硬件选择大量不同的 Amazon EC2 实例和 Amazon EBS 卷、使用 Amazon EMR 文件系统 (EMRFS) 备份和还原到 Amazon S3、自动节点替换,以及轻松调整命令以在集群中添加或移除实例。而且,您还可以使用 Hue 直观展示您的 HBase 表以及浏览您的数据。详细了解 Amazon EMR 上的 Apache HBase。
Apache HBase 的设计目的是在维持性能的同时扩展至数以百计的节点,并支持数十亿行和数百万列。它将 Hadoop 分布式文件系统 (HDFS) 用作容错数据存储,因而能够存储的文件是您的集群中文件的 3 倍。Amazon EMR 支持大量不同的实例类型和 Amazon EBS 卷,因此,您可以自定义您的集群硬件以优化成本和性能。此外,您还可以使用 Apache Phoenix 对大量 HBase 表进行低延迟的 SQL 访问,或创建二级索引,以提升性能。
通过与 Apache Hadoop 生态系统中的项目紧密集成,您可以轻松地针对 HBase 表中存储的数据大规模运行并行分析工作负载。在 Amazon EMR 集群上安装 Apache HBase 时,可以轻松地同时安装 Apache Phoenix、Apache Hadoop、Apache Hive、Apache Pig 及其他开源的大数据应用程序,并利用这些工具针对 Apache HBase 中您的数据运行报告、SQL 查询或其他分析工作负载。此外,您还可以利用这些工具从 Amazon S3 或 HDFS 向 Apache HBase 表批量导入/导出数据,或使用 Apache Hive 将 Apache HBase 中的数据加入 Amazon S3 上的外部表中。
Apache HBase 是一种宽列存储,通过它,您可以出于筛选目的定义每一行中的任意列。另外,HBase 会在每个单元格中添加一个时间戳,并且可以保留以前的版本,因此,您可以轻松存储和访问数据集的内容。每个单元格都是一个字节数组,可存储 MB 范围级的负载,从而使您可以灵活地选择存储在表中的数据类型。Apache Phoenix 和 Apache Hive 支持对 Apache HBase 表进行 SQL 访问。
您可以在几分钟内轻松启动一个运行 Apache HBase 及其他 Apache Hadoop 和 Apache Spark 生态系统应用程序的配置完全的 Amazon EMR 集群。Amazon EMR 可自动替换性能较差的节点,而且您可轻松调整集群大小来满足自己的要求。您可以使用 Hue UI 在 Apache HBase 中管理表和浏览数据,还可使用 EMRFS 和 Hadoop MapReduce 轻松将表备份和还原到 Amazon S3。此外,Amazon EMR 上的 Apache HBase 还可利用 Amazon EMR 的授权和加密功能集。 单击此处了解有关 Amazon EMR 功能的更多详细信息。
Monster 是从事猎头业务的全球领导者,它利用 Amazon EMR 上的 Apache HBase 存储点击流和广告营销活动数据以进行下游分析。这样,他们便能够以单次曝光量为粒度监控不同的客户群在既定营销活动中的表现有何不同。Monster 的分析团队可轻松浏览各行内容来合计每位用户的查看量和点击量,从而确定营销活动。此外,他们还利用 Apache HBase 与 Apache Hadoop 生态系统的紧密集成。Monster 在单独的 Amazon EMR 集群上运行 Apache Hive,以使用 SQL 查询其 HBase 表,这对于执行额外分析以及从 Apache HBase 向 Amazon Redshift 导出数据来说非常有用。
- 访问 Apache 软件基金会网站中关于 HBase 项目的部分,了解有关 HBase 的更多信息
- AWS 博客上与 Amazon EMR 上的 Apache HBase 1.2 发布有关的博客文章
- AWS 大数据博客上的教程:配合使用 HBase 和 Hive for NoSQL 来处理分析工作负载