Apache HBase è un datastore per Big Data distribuito dotato di elevata scalabilità che fa parte dell'ecosistema di Apache Hadoop. Si tratta di un database open source non relazionale con versioni multiple che viene eseguito in Amazon S3 (con EMRFS) o con il file system distribuito Hadoop (HDFS), progettato per accessi casuali e consistenza stretta in tempo reale per tabelle con miliardi di righe e milioni di colonne. Apache Phoenix si integra con Apache HBase per offrire accesso SQL a bassa latenza a tabelle Apache HBase e migliori prestazioni tramite indicizzazione secondaria. Inoltre, Apache HBase offre una solida integrazione con Apache Hadoop, Apache Hive e Apache Pig per consentire analisi in parallelo di grandi volumi di informazioni e rapido accesso ai dati. Il modello di dati, il throughput e la tolleranza ai guasti offerti da Apache HBase lo rendono ideale per i carichi di lavoro previsti da tecnologie pubblicitarie, analisi Web, servizi finanziari, applicazioni con dati di serie storiche e da molti altri processi.

Amazon EMR offre il supporto nativo per Apache HBase; è possibile creare in modo semplice e veloce cluster Apache HBase tramite la Console di gestione AWS, l'interfaccia a riga di comando di AWS o l'API di Amazon EMR. È anche possibile sfruttare altre funzionalità di Amazon EMR, ad esempio utilizzando Amazon S3 come datastore per ridurre i costi, creando cluster di repliche di lettura per aumentare la disponibilità, scegliendo tra i diversi tipi di istanza Amazon EC2 e volumi Amazon EBS come base hardware del cluster, abilitando backup e ripristino in Amazon S3 tramite il file system di Amazon EMR (EMRFS) e la sostituzione automatica dei nodi, oppure inviando comandi di ricalibrazione delle risorse per aggiungere o rimuovere istanze dal cluster. È inoltre possibile utilizzare Hue per visualizzare le tabelle HBase e navigare nei dati. Ulteriori informazioni su Apache HBase on Amazon EMR.

Caratteristiche e vantaggi

Prestazioni e scalabilità

Apache HBase è progettato per mantenere elevate le prestazioni anche quando sono allocati centinaia di nodi, per supportare miliardi di righe e milioni di colonne. Utilizza Amazon S3 (con EMRFS) o il file system distribuito Hadoop (HDFS) come datastore con tolleranza ai guasti. Amazon EMR supporta un'ampia gamma di tipi di istanza e di volumi Amazon EBS, perciò è più facile personalizzare l'hardware del cluster in modo da ottimizzare costi e prestazioni. Inoltre, è possibile usare Apache Phoenix per ottenere bassa latenza in SQL con grandi volumi di tabelle HBase oppure creare indici secondari per migliorare le prestazioni.

Carichi di lavoro di analisi

Grazie alla perfetta integrazione con i progetti nell'ecosistema di Apache Hadoop, è possibile eseguire in parallelo carichi di lavoro di analisi di ampio respiro su dati memorizzati in tabelle HBase. Installare Apache Phoenix, Apache Hadoop, Apache Hive, Apache Pig e altre applicazioni open source per i Big Data sul cluster Amazon EMR insieme ad Apache HBase è un'operazione molto semplice, così come utilizzarli per la reportistica, le query SQL o altri carichi di lavoro analitici sui dati in Apache HBase. Inoltre, questi strumenti possono essere impiegati per importare o esportare in blocco i dati in tabelle Apache HBase, oppure per utilizzare Apache Hive per unire i dati provenienti da Apache HBase con tabelle esterne in Amazon S3.

Integrazione con Amazon EMR

Per avviare un cluster completamente configurato di Amazon EMR con Apache HBase e altre applicazioni dell'ecosistema Apache Hadoop e Apache Spark sono sufficienti pochi minuti. Amazon EMR sostituirà automaticamente i nodi con prestazioni insufficienti e il cluster potrà essere ridimensionato in base alle esigenze. È possibile gestire le tabelle ed eseguire ricerche sui dati in Apache HBase utilizzando l'interfaccia utente di Hue e configurare backup e ripristino delle tabelle in Amazon S3 tramite EMRFS e Hadoop MapReduce. Inoltre, Apache HBase in Amazon EMR può utilizzare le funzioni di crittografia, di autenticazione di Kerberos e di assegnazione di autorizzazioni di Amazon EMR. Fai clic qui per ulteriori informazioni sulle caratteristiche di Amazon EMR.

Storage di Amazon S3 per HBase

Amazon EMR permette di usare Amazon S3 come datastore per Apache HBase tramite il file system EMR. Separare lo storage del cluster e i nodi di elaborazione impiegando Amazon S3 come data store offre diversi vantaggi con HDFS su cluster. È possibile risparmiare dimensionando il cluster in base a requisiti di elaborazione invece di storage di dati HDFS, ottenere la disponibilità e la durabilità dello storage in S3, ricalibrare nodi di elaborazione senza modificare lo storage e terminare i cluster per ridurre le spese, ripristinandoli rapidamente in caso di necessità. Inoltre, è possibile creare e configurare come cluster principale in una zona di disponibilità di Amazon EC2 differente un cluster di replica di lettura che fornisca accesso solo in lettura agli stessi dati, garantendo accesso senza interruzioni ai dati anche se il cluster principale non è disponibile.

Storie di successo su HBase e Amazon EMR

Finra

La FINRA (Financial Industry Regulatory Authority) è l'autorità di regolazione indipendente più importante degli Stati Uniti; monitora e regola le pratiche commerciali del settore finanziario. FINRA usa Amazon EMR, eseguendo Apache HBase in Amazon S3 per ottenere accesso casuale a 3.000 miliardi di record (con aumenti su base giornaliera nell'ordine di miliardi di record) e alimentare un'applicazione interattiva che permette la ricerca e la visualizzazione di eventi di mercato. Separando storage ed elaborazione, FINRA può ora memorizzare una singola copia dei dati in Amazon S3, ridimensionando le risorse del cluster in base alla capacità di elaborazione necessaria, mentre prima doveva calibrare il cluster per la memorizzazione dei dati in HDFS con tripla replica. In questo modo ha ottenuto risparmi del 60%, maggiore scalabilità di elaborazione e la riduzione dei tempi per il ripristino di un cluster in una nuova zona di disponibilità di EC2, che prima richiedevano alcuni giorni mentre ora impiegano meno di 30 minuti.

Monster

Monster, leader globale nel settore degli annunci di lavoro, utilizza Apache HBase in Amazon EMR per memorizzare i dati di clickstream e delle campagne pubblicitarie per analisi a valle. Grazie a questa soluzione possono monitorare le prestazioni di diversi segmenti di pubblico di una determinata campagna con granularità a livello di singola impressione. Il team di analisi di Monster esplorano le attività delle campagne aggregando il numero di visualizzazioni e di clic per singolo utente. Monster sfrutta inoltre l'integrazione di Apache HBase con l'ecosistema di Apache Hadoop. Esegue infatti Apache Hive su un cluster Amazon EMR separato, che consente di eseguire query su una tabella HBase con SQL, in modo da fornire analisi aggiuntive ed esportare i dati da Apache HBase ad Amazon Redshift.

Ulteriori informazioni sui prezzi di Amazon EMR

Visita la pagina dei prezzi
Tutto pronto per cominciare?
Inizia a usare Amazon EMR
Hai altre domande?
Contattaci