Amazon EMR 上的 Apache Hbase-分布式大数据存储服务-AWS云服务

Amazon EMR 原生支持 Apache HBase，让您可以实时访问可扩展到数十亿行和数百万列的表。Amazon EMR 将开源 Apache HBase（分布式系统上面向列的数据存储）的优势与 Amazon EMR 的耐用性、性能、集成和工具功能相结合。您可以获得高度一致的写入和读取，并且可以在几毫秒内查询 PB 级数据的结果，以使用时间序列数据为金融服务、广告技术、网络分析和应用程序中的任务关键型工作负载提供支持。您现有的 Apache HBase 应用程序无需更改任何代码，即可在 Amazon EMR 上运行。详细了解 Apache HBase on Amazon EMR。

功能和益处

持久性

对于采用 EMR 文件系统的 Apache HBase，Amazon EMR 使您能够将 Amazon S3 作为数据存储。使用 Amazon S3 作为数据存储可以将计算与存储分离，而且与 Apache Hadoop 的集群上 Hadoop Distributed File System（HDFS）相比，具有多种优势。您可以根据计算需求而不是 HDFS 数据存储需求调整集群大小，从而节省成本，同时获得 Amazon S3 数据存储的可用性和持久性。您可以在不影响底层存储的情况下扩展计算节点，在作业完成时终止集群以节省成本，并在需要时快速恢复集群。您还可以在主集群所在的 Amazon EC2 可用区中创建和配置只读副本集群，以获得对相同数据的只读访问权限，并确保即使在主集群不可用时也能不间断地访问您的数据。Amazon EMR 还会将 Apache HBase 数据文件（HFile）保存到 Amazon S3。

性能

Apache HBase 旨在维持性能的同时，扩展至数百个节点，同时支持随即访问数十亿行和数百万列。它利用 Amazon S3（使用 EMRFS）或 Hadoop Distributed File System（HDFS）作为容错数据存储。Amazon EMR 支持大量不同的实例类型和 Amazon EBS 卷，因此，您可以自定义您的集群硬件以优化成本和性能。

集成

您可以在几分钟内轻松启动配置完全的 Amazon EMR 集群，其中运行 Apache HBase 及其他 Apache Hadoop 和 Apache Spark 生态系统应用程序。Amazon EMR 可自动替换性能较差的节点，而且您可轻松调整集群大小来满足自己的要求。您可以使用 Hue UI 在 Apache HBase 中管理表和浏览数据，还可以使用 EMRFS 和 Hadoop MapReduce 轻松将表备份和还原到 Amazon S3。此外，Apache HBase on Amazon EMR 可利用 Amazon EMR 的授权、Kerberos 身份验证和加密功能集。单击此处了解有关 Amazon EMR 功能的更多详细信息。

工具

对于采用 EMR 文件系统的 Apache HBase，Amazon EMR 使您能够将 Amazon S3 作为数据存储。使用 Amazon S3 作为数据存储可将集群的存储和计算节点分隔开来，从而提供多种优势（相比在集群上使用 HDFS）。您可以通过针对计算要求调整集群大小而非使用 HDFS 数据存储来节省成本、获享 S3 存储的可用性和持久性、在不影响底层存储的情况下扩展计算节点，以及终止集群来节省成本并快速将其还原。您还能在其他 Amazon EC2 可用区创建和配置只读副本集群，允许其以只读方式访问面向主集群的数据，从而确保在主集群不可用时能够继续访问数据。