Apache HBase 是 Apache Hadoop 生態系統中可大規模擴展的分散式大數據存放區。這是一個開放原始碼、非關聯式的版本控制資料庫,在 Hadoop 分散式檔案系統 (HDFS) 上執行,而且是專為隨機、嚴格地一致即時存取表格所建置,可存取包含數十億資料列和數百萬資料欄的表格。Apache Phoenix 與 Apache HBase 整合,可在 Apache HBase 表進行低延遲 SQL 存取和建立次要索引,以提升效能。此外,Apache HBase 與 Apache HadoopApache HiveApache Pig 緊密整合,所以您可輕鬆地組合大規模平行分析與快速資料存取。Apache HBase 的資料模型、輸送量和容錯能力與廣告技術、Web 分析、金融服務、使用時間序列資料的應用程式等等的工作負載是完美的搭配。

Amazon EMR 原本就支援 Apache HBase,您可以從 AWS 管理主控台、AWS CLI 或 Amazon EMR API,輕鬆快速地建立受管的 Apache HBase 叢集。不僅如此,您可以利用其他 Amazon EMR 功能,包括可為叢集硬體選用各式 Amazon EC2 執行個體和 Amazon EBS 磁碟區、使用 Amazon EMR 檔案系統 (EMRFS) 備份和恢復到 Amazon S3、自動節點置換,以及輕鬆調整命令大小在叢集中新增或移除執行個體。您也可以使用 Hue 視覺化 HBase 表格和探索資料。進一步了解 Amazon EMR 上的 Apache HBase。

開始在 Amazon EMR 上使用 Apache HBase

建立免費帳戶

需要協助嗎?詢問我們!


Apache HBase 的設計目的是在擴展到數百個節點的同時又能保持效能,並支援數十億資料列和數百萬資料欄。它利用 Hadoop 分散式檔案系統 (HDFS) 作為容錯資料存放區,可在叢集間以 3 倍複寫存放檔案。Amazon EMR 支援各式各樣的執行個體類型和 Amazon EBS 磁碟區,所以您可以自訂叢集的硬體以優化成本和效能。此外,您可以使用 Apache Phoenix 在大規模 HBase 表進行低延遲 SQL 或建立次要索引,以提升效能。

透過與 Apache Hadoop 生態系統中專案的緊密整合,您可以在存放於 HBase 表格的資料上輕鬆地執行大規模平行分析工作負載。您可以在 Amazon EMR 叢集輕鬆地安裝 Apache PhoenixApache HadoopApache HiveApache Pig 及其他開放原始碼大數據應用程式來搭配 Apache HBase,並利用這些工具在 Apache HBase 的資料上執行報告、SQL 查詢或其他分析工作負載。您也可使用這些工具將資料從 Amazon S3 或 HDFS 大量匯入/匯出到 Apache HBase 表格,或使用 Apache Hive 將 Apache HBase 資料加入 Amazon S3 的外部表格。

Apache HBase 是寬欄型存放區,能讓您為每一列定義任意欄以便篩選。此外,HBase 會在每個儲存格新增時間戳記並保留之前的版本,讓您輕鬆地存放和存取資料集歷程。每個儲存格都是一個可存放 MB 範圍內的位元組陣列,此可讓表格中存放的資料類型具有彈性。Apache PhoenixApache Hive 可在 Apache HBase 表進行 SQL 存取。

您可在短時間內輕鬆地啟動執行 Apache HBase 及其他 Apache Hadoop 和 Apache Spark 生態系統應用程式且完全設定好的 Amazon EMR 叢集。Amazon EMR 會自動置換效能不佳的節點,而您可以輕鬆地調整叢集大小來符合自己的需求。使用 Hue UI 可管理 Apache HBase 中的表格和瀏覽其中的資料,使用 EMRFS 和 Hadoop MapReduce 可輕鬆地備份和恢復表格到 Amazon S3。此外,Amazon EMR 上的 Apache HBase 可利用 Amazon EMR 的授權和加密功能集。按一下此處了解有關 Amazon EMR 功能的詳細資訊。


Monster.com

Monster 是連結人才與工作的全球領導者,他們在 Amazon EMR 上使用 Apache HBase 來存放點擊流和廣告活動資料,以便進行下游分析。這讓他們能夠以單一廣告曝光的精細度來監控不同客群在特定活動中的行為。Monster 的分析團隊可輕鬆瀏覽多個資料列來彙總每一使用者的瀏覽和點擊數,以識別行銷活動。另外,他們也利用 Apache HBase 與 Apache Hadoop 生態系統的緊密整合。Monster 在另一個 Amazon EMR 叢集上執行 Apache Hive,透過 SQL 來查詢 HBase 表格,這對於進行額外的分析並將資料從 Apache HBase 匯出到 Amazon Redshift 很有幫助。