Apache HBase ist ein hoch skalierbarer, verteilter Big Data-Speicher im Apache Hadoop-Ökosystem. Die nicht relationale, versionierte Open Source-Datenbank wird auf dem Hadoop Distributed File System (HDFS) ausgeführt. Sie wurde für den stark konsistenten Direktzugriff in Echtzeit auf Tabellen mit Milliarden von Zeilen und Millionen von Spalten erstellt. Apache Phoenix ist in Apache HBase integriert, um SQL-Zugriff mit geringer Latenz über Apache HBase-Tabellen sowie sekundäre Indizierung für eine bessere Leistung bereitzustellen. Durch die enge Integration in Apache Hadoop, Apache Hive und Apache Pig können Sie darüber hinaus schnell auf die Daten stark paralleler Analysen zugreifen. Aufgrund des Datenmodells, des Durchsatzes und der Fehlertoleranz eignet sich Apache HBase gut für Arbeitslasten in Anzeigentechnologien, Web-Analysen, Finanzdiensten, Anwendungen, die Zeitreihendaten nutzen, und vieles mehr.
Apache HBase wird nativ in Amazon EMR unterstützt. Verwaltete Apache HBase-Cluster können Sie schnell und einfach in der AWS Management Console, der Amazon EMR API oder in AWS CLI erstellen. Außerdem stehen Ihnen zusätzliche Amazon EMR-Funktionen zur Verfügung, wie etwa eine Vielzahl von Amazon EC2 Instances und Amazon EBS-Volumes für die Cluster-Hardware, die Sicherung und Wiederherstellung in Amazon S3 mithilfe des Amazon EMR File System (EMRFS), der automatische Knotenersatz sowie einfache Befehle zum Ändern der Größe, um Instances dem Cluster hinzuzufügen oder daraus zu entfernen. Sie können auch Hue verwenden, um HBase-Tabellen zu visualisieren und Ihre Daten zu erkunden. Hier erhalten Sie weitere Informationen zu Apache HBase in Amazon EMR.
Erste Schritte mit Apache HBase in Amazon EMR
Erstellen eines kostenlosen KontosHilfe erforderlich? Wenden Sie sich an uns.
Apache HBase ist eine Hochleistungslösung, die Hunderte von Knoten, Milliarden von Zeilen und Millionen von Spalten unterstützt. Dabei wird das Hadoop Distributed File System (HDFS) als fehlertoleranter Datenspeicher genutzt, in dem Dateien mit 3-facher Replikation innerhalb des Clusters gespeichert werden. Amazon EMR unterstützt eine Vielzahl von Instance-Typen und Amazon EBS-Volumes, sodass Sie die Cluster-Hardware zur Optimierung des Preis-Leistungs-Verhältnisses anpassen können. Außerdem können Sie Apache Phoenix für den SQL-Zugriff mit geringer Latenz über umfangreiche HBase-Tabellen und zum Erstellen sekundärer Indizes für eine bessere Leistung verwenden.
Dank der engen Integration in Projekte innerhalb des Apache Hadoop-Ökosystems können Sie auf einfache Weise stark parallele Analyse-Arbeitslasten für die in HBase-Tabellen gespeicherten Daten ausführen. Sie können Apache Phoenix, Apache Hadoop, Apache Hive, Apache Pig und andere Open Source-Anwendungen für Big Data bequem zusammen mit Apache HBase in Ihrem Amazon EMR-Cluster installieren. Die Tools eignen sich auch, um Berichterstattungen, SQL-Abfragen und andere Analyse-Arbeitslasten hinsichtlich Ihrer Daten in Apache HBase auszuführen. Darüber hinaus können Sie mit diesen Tools Daten aus Amazon S3 oder HDFS in Apache HBase-Tabellen importieren/exportieren. Mit Apache Hive lassen sich auch Daten aus Apache HBase mit externen Tabellen in Amazon S3 zusammenführen.
Apache HBase ist ein spaltenbasierter Speicher, in dem Sie zu Filterzwecken für jede Zeile beliebige Spalten definieren können. Darüber hinaus fügt HBase jeder Zelle einen Zeitstempel hinzu. Frühere Versionen können beibehalten werden. Dies bietet Ihnen die Möglichkeit, die Herkunft eines Datensatzes auf einfache Weise zu speichern und aufzurufen. Jede Zelle ist ein Byte-Array, das eine Payload im MB-Bereich speichern kann. Dadurch werden in der Tabelle unterschiedliche Datentypen unterstützt. Apache Phoenix und Apache Hive ermöglichen den SQL-Zugriff über Apache HBase-Tabellen.
Sie können auf einfache Weise innerhalb von wenigen Minuten ein vollständig konfiguriertes Amazon EMR-Cluster starten, in dem Apache HBase und weitere Anwendungen des Apache Hadoop- und Apache Spark-Ökosystems ausgeführt werden. Amazon EMR ersetzt leistungsschwache Knoten automatisch. Darüber hinaus lässt sich die Größe des Clusters auf einfache Weise entsprechend Ihren Anforderungen ändern. Nutzen Sie die Hue-Benutzeroberfläche, um in Apache HBase Tabellen zu verwalten und Daten zu durchsuchen. Mit EMRFS und Hadoop MapReduce können Sie Tabellen in Amazon S3 sichern und wiederherstellen. Darüber hinaus kann Apache HBase in Amazon EMR zur Authorisierung und Verschlüsselung die Funktionssätze von Amazon EMR verwenden. Klicken Sie hier, um weitere Informationen zu den Funktionen von Amazon EMR zu erhalten.
Monster, eine weltweit führende Online-Jobbörse, verwendet Apache HBase in Amazon EMR, um für Downstream-Analysen Daten zu Clickstreams und Werbekampagnen zu speichern. Das Unternehmen kann auf diese Weise die Leistung unterschiedlicher Kundensegmente innerhalb einer Kampagne bis hin zu den einzelnen Impressionen überwachen. Das Analyseteam von Monster verfügt über eine bequeme Möglichkeit zum Durchsuchen der Reihen, um die Anzahl der Aufrufe und Klicks pro Benutzer zu aggregieren und die Kampagnenaktivität zu ermitteln. Darüber hinaus profitiert Monster von der engen Integration von Apache HBase in das Apache Hadoop-Ökosystem. Monster führt Apache Hive in einem separaten Amazon EMR-Cluster aus, um die HBase-Tabelle mit SQL abzufragen. Dies ist für weitere Analysen und zum Exportieren von Daten aus Apache HBase in Amazon Redshift nützlich.
- Einführung in das Erstellen eines Amazon EMR-Clusters mit Apache HBase
- Weitere Informationen zu HBase erhalten Sie auf der Apache Software Foundation-Website für das HBase-Projekt.
- Blogbeitrag zur Einführung von HBase 1.2 in Amazon EMR im AWS Blog