Apache HBase su Amazon EMR - Piattaforma di Big Data

Amazon EMR supporta nativamente Apache HBase per darti accesso in tempo reale a tabelle dimensionabili fino a miliardi di righe e milioni di colonne. Amazon EMR combina l'affidabilità, le prestazioni, l'integrazione e gli strumenti che la contraddistinguono con i vantaggi di Apache HBase open source, un datastore orientato alle colonne su sistemi distribuiti. È possibile ottenere scritture e letture a consistenza forte e interrogare i risultati su petabyte di dati nell'arco di millisecondi, per supportare carichi di lavoro mission critical nei servizi finanziari, nella tecnologia pubblicitaria, nell'analisi web e nelle applicazioni utilizzando dati di serie temporali. Le applicazioni Apache HBase preesistenti funzioneranno su Amazon EMR senza bisogno di apportare modifiche al codice. Scopri di più su Apache HBase su Amazon EMR.

Funzionalità e vantaggi

Durabilità

Amazon EMR permette di usare Amazon S3 come datastore per Apache HBase tramite il file system EMR. L'utilizzo di Amazon S3 come datastore consente di separare il calcolo dall'archiviazione e fornisce vari vantaggi rispetto al file system distribuito Hadoop (HDFS) implementato su cluster di Apache Hadoop. È possibile risparmiare sui costi dimensionando il cluster in base ai requisiti di calcolo anziché ai requisiti di archiviazione dei dati HDFS, usufruendo al contempo della disponibilità e dell'affidabilità di Amazon S3 per l'archiviazione di dati. È possibile dimensionare i nodi di calcolo senza influire sull'archiviazione sottostante, terminare il cluster al termine del processo per risparmiare sui costi e ripristinare rapidamente il cluster quando necessario. Inoltre, è possibile creare e configurare un cluster di lettura con replica in una zona di disponibilità di Amazon EC2 dove risiede il cluster primario, per ottenere l'accesso in sola lettura agli stessi dati e garantire l'accesso ininterrotto ai dati anche se il cluster primario non dovesse essere più disponibile. Amazon EMR archivia anche i file di dati di Apache HBase (HFiles) su Amazon S3.

Performance

Apache HBase è progettato per mantenere elevate le prestazioni anche quando sono allocati centinaia di nodi, supportando l'accesso casuale a miliardi di righe e milioni di colonne. Utilizza Amazon S3 (con EMRFS) o il file system distribuito Hadoop (HDFS) come datastore con tolleranza ai guasti. Amazon EMR supporta un'ampia gamma di tipi di istanza e di volumi Amazon EBS, perciò è più facile personalizzare l'hardware del cluster in modo da ottimizzare costi e prestazioni.

Integrazione

Per avviare un cluster completamente configurato di Amazon EMR con Apache HBase e altre applicazioni dell'ecosistema Apache Hadoop e Apache Spark sono sufficienti pochi minuti. Amazon EMR sostituirà automaticamente i nodi con prestazioni insufficienti e il cluster potrà essere ridimensionato in base alle esigenze. È possibile gestire le tabelle ed eseguire ricerche sui dati in Apache HBase utilizzando l'interfaccia utente di Hue, nonché eseguire facilmente il backup e il ripristino delle tabelle su Amazon S3 utilizzando EMRFS e Hadoop MapReduce. Inoltre, Apache HBase su Amazon EMR può sfruttare le funzionalità di autorizzazione, autenticazione Kerberos e crittografia di Amazon EMR. Fai clic qui per ulteriori informazioni sulle funzionalità di Amazon EMR.

Strumenti

Amazon EMR permette di usare Amazon S3 come datastore per Apache HBase tramite il file system EMR. Separare lo storage del cluster e i nodi di elaborazione impiegando Amazon S3 come data store offre diversi vantaggi con HDFS su cluster. È possibile risparmiare dimensionando il cluster in base a requisiti di elaborazione invece di storage di dati HDFS, ottenere la disponibilità e la durabilità dello storage in S3, ricalibrare nodi di elaborazione senza modificare lo storage e terminare i cluster per ridurre le spese, ripristinandoli rapidamente in caso di necessità. Inoltre, è possibile creare e configurare come cluster principale in una zona di disponibilità di Amazon EC2 differente un cluster di replica di lettura che fornisca accesso solo in lettura agli stessi dati, garantendo accesso senza interruzioni ai dati anche se il cluster principale non è disponibile.

Storie di successo su HBase e Amazon EMR

FINRA si avvale di Amazon EMR per eseguire Apache HBase su Amazon S3 per accedere rapidamente a migliaia di miliardi di record commerciali e risparmiare oltre il 60% sui costi.

Monster utilizza Apache HBase su Amazon EMR per archiviare i dati relativi ai clickstream e alle campagne pubblicitarie ed eseguire query SQL con Apache Hive.