什麼是 Apache HBase?

Apache HBase 是一個開放原始碼的 NoSQL 分散式大數據存放區。它可隨機、以嚴格一致性即時存取 PB 資料。HBase 對於處理大型稀疏的資料集非常有效。

HBase 與 Apache Hadoop 和 Hadoop 生態系統無縫整合,並使用 Amazon 彈性 MapReduce (EMR) 檔案系統或 EMRFS 在 Hadoop 分散式檔案系統 (HDFS) 或 Amazon S3 上執行。HBase 可作為 Hadoop 的 Apache MapReduce 框架的直接輸入和輸出,並與 Apache Phoenix 一起使用,以經由 HBase 表啟用類似 SQL 的查詢。 

HBase 標誌

HBase 如何運作?

HBase 是一個以欄為導向的非關聯式資料庫。這表示資料儲存在個別欄,並由唯一的資料列鍵進行索引。此架構允許快速擷取個別列和欄,並對表格的個別欄進行高效率掃描。資料和請求都分配到 HBase 叢集的所有伺服器,讓您在毫秒內查詢 PB 資料的結果。對於儲存經由 HBase API 存取的非關係資料,HBase 最有效。Apache Phoenix 通常用作 HBase 頂部 SQL 圖層,允許您使用熟悉的 SQL 語法插入、刪除和查詢儲存在 HBase 的資料。

HBase 具有哪些優勢?

可擴展性

HBase 旨在處理跨數千台伺服器的擴充功能,並管理對 PB 資料的存取。憑藉 Amazon EC2 的彈性和 Amazon S3 的可擴展性,HBase 能夠處理大量資料集的線上存取。

快速

HBase 透過將來自應用程式的要求在主機叢集中分配來自的 PB 資料,提供低延遲隨機讀取和寫入存取權限。每個主機都可存取 HDFS 和 S3 資料,並在毫秒內提供讀取和寫入要求。

容錯

HBase 會將儲存在資料表的資料分割在叢集的多個主機,並且是專為承受個別主機故障而建構。由於資料儲存在 HDFS 或 S3 上,因此在失敗的主機提供後,系統會自動選擇健康的主機來託管資料,並且資料會自動連線。

Hbase 的使用案例是什麼?

FINRA (美國金融業監管局) 是美國最大的獨立安全監管機構,負責監督和規範金融交易實務。FINRA 使用 Amazon EMR 在 Amazon S3 上執行 Apache HBase,用於隨機存取互動應用程式的 3 兆筆記錄 (每天增加數十億筆),以搜尋和顯示相關的市場事件。FINRA 透過去耦儲存和運算,可將一份資料副本存放在 Amazon S3 並隨運算容量需求調整叢集大小,而不用為了將資料存放在 3 倍複寫的 HDFS 而調整叢集大小。這樣每年可省下超過 60% 的費用,不但能夠輕鬆擴展運算,還能將全新 EC2 可用區域中叢集的恢復時間從幾天縮短到 30 分鐘以內。

Monster 是連結人才與工作機會的全球領導者,他們在 Amazon EMR 上使用 Apache HBase 存放點擊流和廣告活動資料,以便進行下游分析。這讓他們能夠以單一廣告曝光的精細度來監控不同客群在特定活動中的行為。Monster 的分析團隊可輕鬆瀏覽多個資料列來彙總每一使用者的瀏覽和點擊數,以識別行銷活動。另外,他們也利用 Apache HBase 與 Apache Hadoop 生態系統的緊密整合。Monster 在另一個 Amazon EMR 叢集上執行 Apache Hive,透過 SQL 來查詢 HBase 表格,這對於進行額外的分析並將資料從 Apache HBase 匯出到 Amazon Redshift 很有幫助。 

AWS 如何支援 HBase 和 Hadoop?

Amazon EMR 提供最簡單、最快、最符合成本效益的受控 Hadoop 架構,使客戶能夠在動態可擴充的 EC2 執行個體中處理大量資料。客戶還可在 EMR 中執行其他流行的分散式架構,例如 Apache HBase、Hive、Spark、Presto 和 Flink。 

進一步了解 Amazon EMR

立即建立免費 AWS 帳戶,開始在 AWS 上使用 Apache HBase。

AWS 上的後續步驟

註冊免費帳戶

立即存取 AWS 免費方案。

註冊 
開始在主控台進行建置

開始在 AWS 管理主控台進行建置。

登入