Apache HBase ist ein hoch skalierbarer, verteilter Big Data-Speicher im Apache Hadoop-Ökosystem. Die nicht relationale, versionierte Open Source-Datenbank wird auf Amazon S3 (mithilfe von EMRFS) oder auf dem Hadoop Distributed File System (HDFS) ausgeführt. Sie wurde für den streng konsistenten Direktzugriff in Echtzeit auf Tabellen mit Milliarden von Zeilen und Millionen von Spalten erstellt. Apache Phoenix ist in Apache HBase integriert, um SQL-Zugriff mit geringer Latenz über Apache HBase-Tabellen sowie sekundäre Indizierung für eine bessere Leistung bereitzustellen. Durch die enge Integration in Apache Hadoop, Apache Hive und Apache Pig können Sie darüber hinaus schnell auf die Daten stark paralleler Analysen zugreifen. Aufgrund des Datenmodells, des Durchsatzes und der Fehlertoleranz eignet sich Apache HBase gut für Arbeitslasten in Anzeigentechnologien, Web-Analysen, Finanzdiensten, Anwendungen, die Zeitreihendaten nutzen, und vieles mehr.

Apache HBase wird nativ in Amazon EMR unterstützt. Verwaltete Apache HBase-Cluster können Sie so schnell und einfach in der AWS Management Console, der Amazon EMR API oder in AWS CLI erstellen. Sie können zusätzliche Amazon EMR-Funktionen nutzen, wie etwa die Verwendung von Amazon S3 als Datastore, um Kosten zu senken, oder das Erstellen von Read Replica-Clusters zum Erhöhen der Verfügbarkeit sowie eine Vielzahl von Amazon EC2-Instances und Amazon EBS-Volumes für die Cluster-Hardware, die Sicherung und Wiederherstellung in Amazon S3 mithilfe des Amazon EMR File System (EMRFS), der automatische Knotenersatz sowie einfache Befehle zum Ändern der Größe, um Instances dem Cluster hinzuzufügen oder daraus zu entfernen. Sie können auch Hue verwenden, um HBase-Tabellen zu visualisieren und Ihre Daten zu erkunden. Hier erhalten Sie weitere Informationen zu Apache HBase in Amazon EMR.

hbase_logo_with_orca_large

Erste Schritte mit Apache HBase in Amazon EMR

Erstellen eines kostenlosen Kontos

Hilfe erforderlich? Wenden Sie sich an uns.


S3_Sketch_Available

Apache HBase ist eine Hochleistungslösung, die Hunderte von Knoten, Milliarden von Zeilen und Millionen von Spalten unterstützt. Es nutzt Amazon S3 (mit EMRFS) oder das Hadoop Distributed Filesystem (HDFS) als fehlertoleranten Datastore. Amazon EMR unterstützt eine Vielzahl von Instance-Typen und Amazon EBS-Volumes, sodass Sie die Cluster-Hardware zur Optimierung des Preis-Leistungs-Verhältnisses anpassen können. Außerdem können Sie Apache Phoenix für den SQL-Zugriff mit geringer Latenz über umfangreiche HBase-Tabellen und zum Erstellen sekundärer Indizes für eine bessere Leistung verwenden.

S3_Sketch_HighPerformance

Dank der engen Integration in Projekte innerhalb des Apache Hadoop-Ökosystems können Sie auf einfache Weise stark parallele Analyse-Arbeitslasten für die in HBase-Tabellen gespeicherten Daten ausführen. Sie können Apache Phoenix, Apache Hadoop, Apache Hive, Apache Pig und andere Open Source-Anwendungen für Big Data bequem zusammen mit Apache HBase in Ihrem Amazon EMR-Cluster installieren. Die Tools eignen sich auch, um Berichterstattungen, SQL-Abfragen und andere Analyse-Arbeitslasten hinsichtlich Ihrer Daten in Apache HBase auszuführen. Darüber hinaus können Sie mit diesen Tools Daten aus bzw. in Apache HBase-Tabellen importieren/exportieren. Mit Apache Hive lassen sich auch Daten aus Apache HBase mit externen Tabellen in Amazon S3 zusammenführen.

Benefit_Compliance_Orange

Apache HBase ist ein spaltenbasierter Speicher, in dem Sie zu Filterzwecken für jede Zeile beliebige Spalten definieren können. Darüber hinaus fügt HBase jeder Zelle einen Zeitstempel hinzu. Frühere Versionen können beibehalten werden. Dies bietet Ihnen die Möglichkeit, die Herkunft eines Datensatzes auf einfache Weise zu speichern und aufzurufen. Jede Zelle ist ein Byte-Array, das eine Payload im MB-Bereich speichern kann. Dadurch werden in der Tabelle unterschiedliche Datentypen unterstützt. Apache Phoenix und Apache Hive ermöglichen den SQL-Zugriff über Apache HBase-Tabellen.

Benefit_Integration_Green

Sie können auf einfache Weise innerhalb von wenigen Minuten ein vollständig konfiguriertes Amazon EMR-Cluster starten, in dem Apache HBase und weitere Anwendungen des Apache Hadoop- und Apache Spark-Ökosystems ausgeführt werden. Amazon EMR ersetzt leistungsschwache Knoten automatisch. Darüber hinaus lässt sich die Größe des Clusters auf einfache Weise entsprechend Ihren Anforderungen ändern. Nutzen Sie die Hue-Benutzeroberfläche, um in Apache HBase Tabellen zu verwalten und Daten zu durchsuchen. Mit EMRFS und Hadoop MapReduce können Sie Tabellen in Amazon S3 sichern und wiederherstellen. Darüber hinaus kann Apache HBase in Amazon EMR die Funktionssätze von Amazon EMR zur Autorisierung, Kerberos-Authentifizierung und Verschlüsselung verwenden. Klicken Sie hier, um weitere Informationen zu den Funktionen von Amazon EMR zu erhalten.

Benefit_Simple_Red

Amazon EMR ermöglicht Ihnen die Verwendung von Amazon S3 als Datenspeicher für Apache HBase mithilfe des EMR-Dateisystems. Das Trennen Ihres Cluster-Speichers und Ihrer Datenverarbeitungsknoten mithilfe von Amazon S3 als Datenspeicher bietet mehrere Vorteile über On-Cluster-HDFS. Sie können Kosten einsparen, indem Sie die Größe Ihres Clusters auf Ihre Datenverarbeitungsanforderungen anstatt auf den HDFS-Datenspeicher anpassen, können die Verfügbarkeit und Zuverlässigkeit des S3-Speichers erhalten, Datenverarbeitungsknoten ohne Auswirkungen auf den zugrunde liegenden Speicher skalieren und Ihren Cluster beenden, um Kosten zu sparen, und ihn schnell wiederherstellen. Außerdem können Sie einen Read Replica-Cluster in einer anderen Amazon EC2 Availability Zone erstellen und konfigurieren, die schreibgeschützten Zugriff auf die gleichen Daten wie der primäre Cluster bereitstellt, um so den unterbrechungsfreien Zugriff auf Ihre Daten auch dann sicherzustellen, wenn der primäre Cluster nicht verfügbar ist.


FINRA

FINRA – die Regulierungsbehörde im Finanzsektor – ist die größte unabhängige Regulierungsbehörde in den USA und überwacht sowie reguliert die Praktiken des Finanzmarkts. FINRA verwendet Amazon EMR zum Ausführen von Apache HBase auf Amazon S3 für den zufälligen Zugriff auf 3 Trillionen Datensätze (täglich kommen Milliarden hinzu), damit eine interaktive Anwendung entsprechende Marktereignisse suchen und anzeigen kann. Durch Entkoppeln von Speicher und Datenverarbeitung kann FINRA eine einzelne Kopie der Daten in Amazon S3 speichern und den Cluster an die benötigte Rechenkapazität anpassen, anstatt die Größe des Clusters für das Speichern der Daten in HDFS mit dreifacher Replikation anzupassen. Dies führt zu jährlichen Kosteneinsparungen von mehr als 60 %, einer einfachen Skalierbarkeit der Datenverarbeitung und einer Reduzierung der Wiederherstellungszeit eines Clusters in einer neuen EC2 Availability Zone von Tagen auf weniger als 30 Minuten.

Monster.com

Monster, eine weltweit führende Online-Jobbörse, verwendet Apache HBase in Amazon EMR, um für Downstream-Analysen Daten zu Clickstreams und Werbekampagnen zu speichern. Das Unternehmen kann auf diese Weise die Leistung unterschiedlicher Kundensegmente innerhalb einer Kampagne bis hin zu den einzelnen Impressionen überwachen. Das Analyseteam von Monster verfügt über eine bequeme Möglichkeit zum Durchsuchen der Reihen, um die Anzahl der Aufrufe und Klicks pro Benutzer zu aggregieren und die Kampagnenaktivität zu ermitteln. Darüber hinaus profitiert Monster von der engen Integration von Apache HBase in das Apache Hadoop-Ökosystem. Monster führt Apache Hive in einem separaten Amazon EMR-Cluster aus, um die HBase-Tabelle mit SQL abzufragen. Dies ist für weitere Analysen und zum Exportieren von Daten aus Apache HBase in Amazon Redshift nützlich.