Apache HBase 是 Apache Hadoop 生態系統中可大規模擴展的分散式大數據存放區。這是一個開放原始碼、非關聯式的版本控制資料庫,在 Amazon S3 (使用 EMRFS) 或 Hadoop 分散式檔案系統 (HDFS) 上執行,而且是專為隨機、嚴格地一致即時存取表格所建置,可存取包含數十億資料列和數百萬資料欄的表格。Apache Phoenix 與 Apache HBase 整合,可在 Apache HBase 表進行低延遲 SQL 存取和建立次要索引,以提升效能。此外,Apache HBase 與 Apache HadoopApache HiveApache Pig 緊密整合,所以您可輕鬆地組合大規模平行分析與快速資料存取。Apache HBase 的資料模型、輸送量和容錯能力與廣告技術、Web 分析、金融服務、使用時間序列資料的應用程式等等的工作負載是完美的搭配。

Amazon EMR 原本就支援 Apache HBase,所以您可以從 AWS 管理主控台、AWS CLI 或 Amazon EMR API 輕鬆快速地建立受管的 Apache HBase 叢集。您可以利用其他 Amazon EMR 功能,包括使用 Amazon S3 做為資料存放區以降低成本、建立僅供讀取複本叢集以提升可用性、為叢集硬體選用各種 Amazon EC2 執行個體和 Amazon EBS 磁碟區、使用 Amazon EMR 檔案系統 (EMRFS) 備份和恢復到 Amazon S3、自動節點置換,還有從叢集新增或移除執行個體的輕鬆調整大小命令。您也可以使用 Hue 視覺化 HBase 表格和探索資料。進一步了解 Amazon EMR 上的 Apache HBase。

hbase_logo_with_orca_large

開始在 Amazon EMR 上使用 Apache HBase

建立免費帳戶

需要協助嗎?詢問我們!


S3_Sketch_Available

Apache HBase 的設計目的是在擴展到數百個節點的同時又能保持效能,並支援數十億資料列和數百萬資料欄。它利用 Amazon S3 (搭配 EMRFS) 或 Hadoop 分散式檔案系統 (HDFS) 做為容錯資料存放區。Amazon EMR 支援各式各樣的執行個體類型和 Amazon EBS 磁碟區,所以您可以自訂叢集的硬體以優化成本和效能。此外,您可以使用 Apache Phoenix 在大規模 HBase 表進行低延遲 SQL 或建立次要索引,以提升效能。

S3_Sketch_HighPerformance

透過與 Apache Hadoop 生態系統中專案的緊密整合,您可以在存放於 HBase 表格的資料上輕鬆地執行大規模平行分析工作負載。您可以在 Amazon EMR 叢集輕鬆地安裝 Apache PhoenixApache HadoopApache HiveApache Pig 及其他開放原始碼大數據應用程式來搭配 Apache HBase,並利用這些工具在 Apache HBase 的資料上執行報告、SQL 查詢或其他分析工作負載。您也可使用這些工具將資料大量匯入/匯出到 Apache HBase 表格,或使用 Apache Hive 將 Apache HBase 資料加入 Amazon S3 的外部表格。

Benefit_Compliance_Orange

Apache HBase 是寬欄型存放區,能讓您為每一列定義任意欄以便篩選。此外,HBase 會在每個儲存格新增時間戳記並保留之前的版本,讓您輕鬆地存放和存取資料集歷程。每個儲存格都是一個可存放 MB 範圍內的位元組陣列,此可讓表格中存放的資料類型具有彈性。Apache PhoenixApache Hive 可在 Apache HBase 表進行 SQL 存取。

Benefit_Integration_Green

您可在短時間內輕鬆地啟動執行 Apache HBase 及其他 Apache Hadoop 和 Apache Spark 生態系統應用程式且完全設定好的 Amazon EMR 叢集。Amazon EMR 會自動置換效能不佳的節點,而您可以輕鬆地調整叢集大小來符合自己的需求。使用 Hue UI 可管理 Apache HBase 中的表格和瀏覽其中的資料,使用 EMRFS 和 Hadoop MapReduce 可輕鬆地備份和恢復表格到 Amazon S3。此外,Amazon EMR 上的 Apache HBase 可利用 Amazon EMR 的授權、Kerberos 身份驗證和加密功能集。按一下這裡了解有關 Amazon EMR 功能的詳細資訊。

Benefit_Simple_Red

Amazon EMR 可讓您透過 EMR 檔案系統,使用 Amazon S3 做為 Apache HBase 的資料存放區。使用 Amazon S3 做為資料存放區來區隔您的叢集儲存和運算節點,可透過叢集上的 HDFS 提供多種好處。您可以針對運算需求而不是 HDFS 資料儲存體調整叢集大小以節省費用、獲得 S3 儲存的可用性和耐久性、在不影響基本儲存的情況下擴展運算節點,還可以終止叢集以節省成本並快速恢復。您也可以在另一個 Amazon EC2 可用區域建立並設定僅供讀取複本叢集,以提供和主叢集一樣的資料唯讀存取權,確保即使在主叢集無法使用的情況下也能不中斷地存取資料。


FINRA

FINRA (美國金融業監管局) 是美國最大的獨立安全監管機構,負責監管金融業的業務及制定相關的規章。FINRA 使用 Amazon EMR 在 Amazon S3 上執行 Apache HBase,用於隨機存取互動應用程式的 3 兆筆記錄 (每天增加數十億筆),以搜尋和顯示相關的市場事件。FINRA 透過去耦儲存和運算,可將一份資料副本存放在 Amazon S3 並隨運算容量需求調整叢集大小,而不用為了將資料存放在 3 倍複寫的 HDFS 而調整叢集大小。這樣每年可省下超過 60% 的費用,不但能夠輕鬆擴展運算,還能將全新 EC2 可用區域中叢集的恢復時間從幾天縮短到 30 分鐘以內。

Monster.com

Monster 是連結人才與工作的全球領導者,他們在 Amazon EMR 上使用 Apache HBase 來存放點擊流和廣告活動資料,以便進行下游分析。這讓他們能夠以單一廣告曝光的精細度來監控不同客群在特定活動中的行為。Monster 的分析團隊可輕鬆瀏覽多個資料列來彙總每一使用者的瀏覽和點擊數,以識別行銷活動。另外,他們也利用 Apache HBase 與 Apache Hadoop 生態系統的緊密整合。Monster 在另一個 Amazon EMR 叢集上執行 Apache Hive,透過 SQL 來查詢 HBase 表格,這對於進行額外的分析並將資料從 Apache HBase 匯出到 Amazon Redshift 很有幫助。