Apache Hadoop in Amazon EMR

Perché Apache Hadoop su EMR?

Apache™ Hadoop® è un progetto software open source che consente di elaborare in modo efficiente grandi set di dati. Invece di utilizzare un solo computer molto potente per elaborare e immagazzinare i dati, con Hadoop è possibile unire in cluster prodotti hardware di largo consumo per analizzare set di dati di grandi dimensioni in parallelo.

L'ecosistema Hadoop dispone di molte applicazioni e motori di esecuzione, che offrono gli strumenti adatti alla maggior parte dei carichi di lavoro di analisi. Con Amazon EMR è semplice creare e gestire cluster elastici completamente configurati di istanze Amazon EC2 che eseguono Hadoop e altre applicazioni del suo ecosistema.

Applicazioni e framework nell'ecosistema Hadoop

Open all

Hadoop: componenti fondamentali

Open all

Vantaggi di Hadoop e Amazon EMR

Open all

Cos'hanno in comune Hadoop e i Big Data?

Hadoop viene spesso utilizzato nei carichi di lavoro per i big data per la sua eccezionale scalabilità. Per aumentare la potenza di calcolo del cluster Hadoop, è sufficiente aggiungere server con i requisiti di CPU e memoria appropriati.

Hadoop offre elevati livelli di durabilità e disponibilità e allo stesso tempo permette di elaborare carichi di lavoro di analisi in parallelo. Ciò che rende Hadoop lo strumento ideale per l'elaborazione di Big Data è la combinazione di disponibilità, durabilità e scalabilità. Con Amazon EMR bastano pochi minuti per creare e configurare un cluster di istanze Amazon EC2 che eseguono Hadoop; creare valore aggiunto dai dati non è mai stato così facile.

Casi d'uso

Apache e Hadoop sono marchi commerciali della Apache Software Foundation.