Was ist Apache HBase?

Apache HBase ist ein verteilter Open-Source-NoSQL-Speicher für Big Data. Es ermöglicht den zufälligen, strikt konsistenten Echtzeitzugriff auf Petabyte an Daten. HBase ist sehr effektiv für den Umgang mit großen, spärlichen Datensätzen.

HBase lässt sich nahtlos in Apache Hadoop und das Hadoop-Ökosystem integrieren und wird im Hadoop Distributed File System (HDFS) oder Amazon S3 mithilfe des EMR-Dateisystems (Amazon Elastic MapReduce file system, EMRFS) ausgeführt. HBase dient als direkte Eingabe und Ausgabe für das Apache-MapReduce-Framework für Hadoop und arbeitet mit Apache Phoenix zusammen, um SQL-ähnliche Abfragen über HBase-Tabellen zu ermöglichen. 

HBase-Logo

Wie funktioniert HBase?

HBase ist eine spaltenorientierte, nicht relationale Datenbank. Das bedeutet, dass Daten in einzelnen Spalten gespeichert und durch einen eindeutigen Zeilenschlüssel indexiert werden. Diese Architektur ermöglicht das schnelle Abrufen einzelner Zeilen und Spalten sowie effiziente Scans einzelner Spalten innerhalb einer Tabelle. Sowohl Daten als auch Anfragen werden auf alle Server in einem HBase-Cluster verteilt, sodass Sie Ergebnisse von Petabyte an Daten innerhalb von Millisekunden abfragen können. HBase wird am effektivsten zum Speichern von nicht-relationalen Daten verwendet, auf die über die HBase-API zugegriffen wird. Apache Phoenix wird häufig als SQL-Schicht auf HBase verwendet, sodass Sie die vertraute SQL-Syntax verwenden können, um in HBase gespeicherte Daten einzufügen, zu löschen und abzufragen.

Welche Vorteile bietet HBase?

Skalierbar

HBase wurde für die Skalierung auf Tausenden von Servern und die Verwaltung des Zugriffs auf Petabyte an Daten entwickelt. Mit der Elastizität von Amazon EC2 und der Skalierbarkeit von Amazon S3 ist HBase in der Lage, den Online-Zugriff auf riesige Datensätze zu bewältigen.

Schnell

HBase bietet zufälligen Lese- und Schreibzugriff auf Petabyte an Daten mit geringer Latenz, indem Anfragen von Anwendungen auf einen Cluster von Hosts verteilt werden. Jeder Host hat Zugriff auf Daten in HDFS und S3 und verarbeitet Lese- und Schreibanforderungen in Millisekunden.

Fehlertolerant

HBase teilt in Tabellen gespeicherte Daten auf mehrere Hosts im Cluster auf und ist so konzipiert, dass es einzelnen Hostausfällen standhält. Da Daten auf HDFS oder S3 gespeichert werden, werden fehlerfreie Hosts automatisch ausgewählt, um die Daten zu hosten, sobald sie vom ausgefallenen Host bereitgestellt wurden, und die Daten werden automatisch online gestellt.

Was sind Anwendungsfälle für HBase?

FINRA – die Regulierungsbehörde im Finanzsektor – ist die größte unabhängige Regulierungsbehörde in den USA und überwacht sowie reguliert die Praktiken des Finanzmarkts. FINRA verwendet Amazon EMR zum Ausführen von Apache HBase auf Amazon S3 für den zufälligen Zugriff auf 3 Trillionen Datensätze (täglich kommen Milliarden hinzu), damit eine interaktive Anwendung entsprechende Marktereignisse suchen und anzeigen kann. Durch Entkoppeln von Speicher und Datenverarbeitung kann FINRA eine einzelne Kopie der Daten in Amazon S3 speichern und den Cluster an die benötigte Rechenkapazität anpassen, anstatt die Größe des Clusters für das Speichern der Daten in HDFS mit dreifacher Replikation anzupassen. Dies führt zu jährlichen Kosteneinsparungen von mehr als 60 %, einer einfachen Skalierbarkeit der Datenverarbeitung und einer Reduzierung der Wiederherstellungszeit eines Clusters in einer neuen EC2 Availability Zone von Tagen auf weniger als 30 Minuten.

Monster, eine weltweit führende Online-Jobbörse, verwendet Apache HBase in Amazon EMR, um für Downstream-Analysen Daten zu Clickstreams und Werbekampagnen zu speichern. Das Unternehmen kann auf diese Weise die Leistung unterschiedlicher Kundensegmente innerhalb einer Kampagne bis hin zu den einzelnen Impressionen überwachen. Das Analyseteam von Monster verfügt über eine bequeme Möglichkeit zum Durchsuchen der Reihen, um die Anzahl der Aufrufe und Klicks pro Benutzer zu aggregieren und die Kampagnenaktivität zu ermitteln. Darüber hinaus profitiert Monster von der engen Integration von Apache HBase in das Apache Hadoop-Ökosystem. Monster führt Apache Hive in einem separaten Amazon EMR-Cluster aus, um die HBase-Tabelle mit SQL abzufragen. Dies ist für weitere Analysen und zum Exportieren von Daten aus Apache HBase in Amazon Redshift nützlich.  

Wie kann AWS HBase und Hadoop unterstützen?

Amazon EMR bietet das einfachste, schnellste und kostengünstigste verwaltete Hadoop-Framework, mit dem Kunden riesige Datenmengen über dynamisch skalierbare EC2-Instances verarbeiten können. Kunden können auch andere beliebte verteilte Frameworks wie Apache HBase, Hive, Spark, Presto und Flink in EMR ausführen. 

Weitere Informationen zu Amazon EMR

Beginnen Sie mit Apache HBase in AWS, indem Sie noch heute ein kostenloses AWS-Konto erstellen.

Nächste Schritte in AWS

Ein kostenloses Konto erstellen

Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.

Registrieren 
Mit der Entwicklung in der Konsole starten

Starten Sie mit der Entwicklung in der AWS-Managementkonsole.

Anmelden