Apache HBase 是 Apache Hadoop 生态系统中高度可扩展的分布式大数据存储。它是一个开源的非关系型版本控制数据库,运行于 Amazon S3 (使用 EMRFS) 或 Hadoop 分布式文件系统 (HDFS) 之上,用于严格一致地以随机方式实时访问含有数十亿行和数百万列的表。Apache Phoenix 与 Apache HBase 集成,以对 Apache HBase 表进行低延迟的 SQL 访问,以及进行二级索引,以提升性能。此外,Apache HBase 还与 Apache HadoopApache HiveApache Pig 紧密集成,因此,您可以轻松将大量并行分析与快速数据访问组合起来。Apache HBase 的数据模型、吞吐量和容错能力能够与广告技术、Web 分析、金融服务、使用时间序列数据的应用程序等的工作负载完美匹配。

Amazon EMR 本身支持 Apache HBase,因此您可以快速轻松地通过 AWS 管理控制台、AWS CLI 或 Amazon EMR API 创建托管的 Apache HBase 群集。您可以利用其他 Amazon EMR 功能,其中包括使用 Amazon S3 作为数据存储以降低成本、为提高可用性创建只读副本群集、为群集的硬件选择大量不同的 Amazon EC2 实例和 Amazon EBS 卷、使用 Amazon EMR 文件系统 (EMRFS) 备份和还原到 Amazon S3、自动替换节点,以及轻松调整命令以在群集中添加或移除实例。而且,您还可以使用 Hue 直观展示您的 HBase 表以及浏览您的数据。详细了解 Amazon EMR 上的 Apache HBase。

hbase_logo_with_orca_large

开始使用 Amazon EMR 上的 Apache HBase

创建免费账户

需要帮助?询问我们!


S3_Sketch_Available

Apache HBase 的设计目的是在维持性能的同时扩展至数以百计的节点,并支持数十亿行和数百万列。它利用 Amazon S3 (通过 EMRFS) 或 Hadoop 分布式文件系统 (HDFS) 作为容错数据存储。Amazon EMR 支持大量不同的实例类型和 Amazon EBS 卷,因此,您可以自定义您的集群硬件以优化成本和性能。此外,您还可以使用 Apache Phoenix 对大量 HBase 表进行低延迟的 SQL 访问,或创建二级索引,以提升性能。

S3_Sketch_HighPerformance

通过与 Apache Hadoop 生态系统中的项目紧密集成,您可以轻松地针对 HBase 表中存储的数据大规模运行并行分析工作负载。在 Amazon EMR 集群上安装 Apache HBase 时,可以轻松地同时安装 Apache PhoenixApache HadoopApache HiveApache Pig 及其他开源的大数据应用程序,并利用这些工具针对 Apache HBase 中您的数据运行报告、SQL 查询或其他分析工作负载。此外,您还可以利用这些工具向 Apache HBase 表批量导入/导出数据,或使用 Apache Hive 将 Apache HBase 中的数据加入 Amazon S3 的外部表中。

Benefit_Compliance_Orange

Apache HBase 是一种宽列存储,通过它,您可以出于筛选目的定义每一行中的任意列。另外,HBase 会在每个单元格中添加一个时间戳,并且可以保留以前的版本,因此,您可以轻松存储和访问数据集的内容。每个单元格都是一个字节数组,可存储 MB 范围级的负载,从而使您可以灵活地选择存储在表中的数据类型。Apache PhoenixApache Hive 支持对 Apache HBase 表进行 SQL 访问。

Benefit_Integration_Green

您可以在几分钟内轻松启动一个运行 Apache HBase 及其他 Apache Hadoop 和 Apache Spark 生态系统应用程序的配置完全的 Amazon EMR 集群。Amazon EMR 可自动替换性能较差的节点,而且您可轻松调整集群大小来满足自己的要求。您可以使用 Hue UI 在 Apache HBase 中管理表和浏览数据,还可使用 EMRFS 和 Hadoop MapReduce 轻松将表备份和还原到 Amazon S3。此外,Amazon EMR 上的 Apache HBase 可利用 Amazon EMR 的授权、Kerberos 身份验证和加密功能集。单击此处了解有关 Amazon EMR 功能的更多详细信息。

Benefit_Simple_Red

对于采用 EMR 文件系统的 Apache HBase,Amazon EMR 使您能够将 Amazon S3 作为数据存储。使用 Amazon S3 作为数据存储可将群集的存储和计算节点分隔开来,从而提供多种优势 (相比在群集上使用 HDFS)。您可以通过针对计算要求调整群集大小而非使用 HDFS 数据存储来节省成本、获享 S3 存储的可用性和持久性、在不影响底层存储的情况下扩展计算节点,以及终止群集来节省成本并快速将其还原。您还能在其他 Amazon EC2 可用区创建和配置只读副本群集,允许其以只读方式访问面向主群集的数据,从而确保在主群集不可用时能够继续访问数据。


FINRA

FINRA (美国金融业监管局) 是美国最大的独立安全监管机构,负责监控和管制金融交易实践。FINRA 使用 Amazon EMR,在 Amazon S3 上运行 Apache HBase,以便随机访问 3 万亿条记录 (每天增加数十亿条),由一个交互式应用程序搜索和显示相关的市场事件。通过将存储和计算解耦,FINRA 可以将一个数据副本内存储在 Amazon S3 中并根据计算容量的需求调整集群的规模,而不用扩大其集群规模,以便在 HDFS 中存储数据的 3 个副本。这使他们每年能够节省 60% 多的成本,轻松扩展计算容量,并且将新 EC2 可用区中集群的恢复时间从数天缩减到 30 分钟以内。

Monster.com

Monster 是从事猎头业务的全球领导者,它利用 Amazon EMR 上的 Apache HBase 存储点击流和广告营销活动数据以进行下游分析。这样,他们便能够以单次曝光量为粒度监控不同的客户群在既定营销活动中的表现有何不同。Monster 的分析团队可轻松浏览各行内容来合计每位用户的查看量和点击量,从而确定营销活动。此外,他们还利用 Apache HBase 与 Apache Hadoop 生态系统的紧密集成。Monster 在单独的 Amazon EMR 集群上运行 Apache Hive,以使用 SQL 查询其 HBase 表,这对于执行额外分析以及从 Apache HBase 向 Amazon Redshift 导出数据来说非常有用。