Apache HBase in Amazon EMR

Amazon EMR unterstützt von Haus aus Apache HBase, sodass Sie in Echtzeit auf Tabellen zugreifen können, die auf Milliarden von Zeilen und Millionen von Spalten skaliert werden können. Amazon EMR kombiniert die Vorteile von Apache HBase, einem spaltenorientierten Datenspeicher auf verteilten Systemen, mit der Robustheit, Leistung, Integration und den Tooling-Funktionen von Amazon EMR. Sie können äußerst konsistente Schreib- und Lesevorgänge erhalten und Ergebnisse von Petabyte an Daten innerhalb von Millisekunden abfragen, um geschäftskritische Workloads in Finanzdienstleistungen, Werbetechnologien, Webanalysen und Anwendungen mithilfe von Zeitreihendaten zu bewältigen. Ihre vorhandenen Apache-HBase-Anwendungen funktionieren auf Amazon EMR ohne Codeänderungen. Hier erhalten Sie weitere Informationen zu Apache HBase in Amazon EMR.

Features und Vorteile

Zuverlässigkeit

Amazon EMR ermöglicht Ihnen die Verwendung von Amazon S3 als Datenspeicher für Apache HBase mithilfe des EMR-Dateisystems. Die Verwendung von Amazon S3 als Datenspeicher entkoppelt Ihre Rechenleistung vom Speicher und bietet mehrere Vorteile gegenüber dem auf dem Cluster befindlichen Hadoop Distributed File System (HDFS) von Apache Hadoop. Sie können Kosten sparen, indem Sie Ihren Cluster für Ihre Rechenanforderungen statt für HDFS-Datenspeicheranforderungen dimensionieren und gleichzeitig die Verfügbarkeit und Haltbarkeit von Amazon S3 für Ihren Datenspeicher nutzen. Sie können Rechenknoten skalieren, ohne den zugrunde liegenden Speicher zu beeinträchtigen, Ihren Cluster nach Abschluss Ihrer Arbeit beenden, um Kosten zu sparen, und Ihren Cluster bei Bedarf schnell wiederherstellen. Sie können auch einen Read-Replica-Cluster in einer Amazon EC2 Availability Zone erstellen und konfigurieren, in der sich der primäre Cluster befindet, um einen Nur-Lese-Zugriff auf dieselben Daten zu erhalten und einen unterbrechungsfreien Zugriff auf Ihre Daten zu gewährleisten, selbst wenn der primäre Cluster nicht verfügbar ist. Amazon EMR speichert auch Apache HBase-Datendateien (HFiles) auf Amazon S3.

Leistung

Apache HBase ist so konzipiert, dass die Leistung auch bei einer Skalierung auf Hunderte von Knoten erhalten bleibt und ein wahlfreier Zugriff auf Milliarden von Zeilen und Millionen von Spalten möglich ist. Es nutzt Amazon S3 (mit EMRFS) oder das Hadoop Distributed Filesystem (HDFS) als fehlertoleranten Datastore. Amazon EMR unterstützt eine Vielzahl von Instance-Typen und Amazon EBS-Volumes, sodass Sie die Cluster-Hardware zur Optimierung des Preis-Leistungs-Verhältnisses anpassen können.

Integration

Sie können auf einfache Weise innerhalb von wenigen Minuten einen vollständig konfigurierten Amazon EMR-Cluster starten, in dem Apache HBase und weitere Anwendungen des Apache Hadoop- und Apache Spark-Ökosystems ausgeführt werden. Amazon EMR ersetzt leistungsschwache Knoten automatisch. Darüber hinaus lässt sich die Größe des Clusters auf einfache Weise entsprechend Ihren Anforderungen ändern. Nutzen Sie die Hue-Benutzeroberfläche, um in Apache HBase Tabellen zu verwalten und Daten zu durchsuchen. Mit EMRFS und Hadoop MapReduce können Sie Tabellen in Amazon S3 sichern und wiederherstellen. Darüber hinaus kann Apache HBase in Amazon EMR die Funktionssätze von Amazon EMR zur Autorisierung, Kerberos-Authentifizierung und Verschlüsselung verwenden. Klicken Sie hier, um weitere Informationen zu den Funktionen von Amazon EMR zu erhalten.

Tools

Amazon EMR ermöglicht Ihnen die Verwendung von Amazon S3 als Datenspeicher für Apache HBase mithilfe des EMR-Dateisystems. Das Trennen Ihres Cluster-Speichers und Ihrer Datenverarbeitungsknoten mithilfe von Amazon S3 als Datenspeicher bietet mehrere Vorteile über On-Cluster-HDFS. Sie können Kosten einsparen, indem Sie die Größe Ihres Clusters auf Ihre Datenverarbeitungsanforderungen anstatt auf den HDFS-Datenspeicher anpassen, können die Verfügbarkeit und Zuverlässigkeit des S3-Speichers erhalten, Datenverarbeitungsknoten ohne Auswirkungen auf den zugrunde liegenden Speicher skalieren und Ihren Cluster beenden, um Kosten zu sparen, und ihn schnell wiederherstellen. Außerdem können Sie einen Read Replica-Cluster in einer anderen Amazon EC2 Availability Zone erstellen und konfigurieren, die schreibgeschützten Zugriff auf die gleichen Daten wie der primäre Cluster bereitstellt, um so den unterbrechungsfreien Zugriff auf Ihre Daten auch dann sicherzustellen, wenn der primäre Cluster nicht verfügbar ist.

Kundenerfolg mit HBase und Amazon EMR

FINRA verwendet Amazon EMR, um Apache HBase auf Amazon S3 auszuführen, um schnell auf Billionen von Handelsdaten zuzugreifen und über 60 % der Kosten einzusparen.