Amazon EMR

Esegui Apache Spark, Hadoop, HBase, Presto, Hive e altri framework per Big Data calibrandone le risorse

Amazon EMR fornisce un framework Hadoop gestito che consente di elaborare grandi quantità di dati su un numero dinamico di istanze Amazon EC2, rendendo l'operazione più semplice, più rapida e più economica. In Amazon EMR è anche possibile eseguire altri framework distribuiti comuni, quali Apache Spark, HBase, Presto e Flink, nonché interagire con i dati contenuti in altri datastore AWS come Amazon S3 e Amazon DynamoDB.

Amazon EMR è una soluzione sicura e affidabile per un'ampia gamma di casi d'uso per Big Data, ideale per una vasta gamma di casi di utilizzo: analisi di log, indicizzazione Web, trasformazione dei dati (ETL), apprendimento automatico, analisi finanziarie, simulazioni scientifiche e ricerche bioinformatiche.

Introduzione ad Amazon EMR (3:06)

Vantaggi

Facilità d'uso

Un cluster EMR può essere avviato in pochi minuti. Non è più necessario preoccuparsi di allocare nodi, impostare cluster, configurare Hadoop oppure ottimizzare i cluster. Di tutto questo si occupa Amazon EMR.

Costi ridotti

I costi di Amazon EMR sono chiari e semplici da calcolare: si paga una tariffa al secondo, con un addebito minimo di 1 minuto. Il prezzo di un cluster Hadoop da 10 nodi parte da 0,15 USD all'ora. Grazie al supporto nativo di Amazon EMR per le istanze Spot e riservate di Amazon EC2, è possibile risparmiare inoltre tra il 50 e l'80% del costo delle istanze sottostanti.

Elasticità

Con Amazon EMR è possibile effettuare il provisioning di una, centinaia o migliaia di istanze di calcolo, per essere in grado di elaborare qualsiasi volume di dati. Il numero di istanze può essere aumentato o diminuito manualmente o con Auto Scaling con la massima semplicità e i prezzi sono calcolati in base all'uso effettivo.

Affidabilità

Il tempo speso per monitoraggio e configurazione del cluster è destinato a calare. Amazon EMR adotta già le impostazioni di Hadoop per ottimizzarne il funzionamento nel cloud ed esegue il monitoraggio del cluster, riavviando le attività con errori e sostituendo automaticamente le istanze con prestazioni insufficienti.

Sicurezza

Amazon EMR configura in modo automatico le impostazioni del firewall di Amazon EC2 che controllano l'accesso alle istanze; consente inoltre di avviare Amazon Virtual Private Cloud (VPC), una rete isolata logicamente definita dall'utente. Per gli oggetti archiviati in Amazon S3, è possibile utilizzare la crittografia lato server o lato client di Amazon S3 con EMRFS, AWS Key Management Service oppure con chiavi gestite dal cliente. Inoltre, è possibile abilitare altre opzioni di crittografia e l'autenticazione con Kerberos.

Flessibilità

Amazon EMR offre il controllo completo del cluster. È possibile accedere in root a qualsiasi istanza, installare applicazioni aggiuntive con la massima semplicità e personalizzare ogni cluster con operazioni di bootstrap. È anche possibile lanciare cluster di Amazon EMR con AMI Amazon Linux personalizzate.

Casi d'uso

Analisi dei dati di clickstream

Con Amazon EMR è possibile analizzare dati di clickstream per dividere gli utenti in categorie, fare luce sulle preferenze degli utenti e pubblicare inserzioni più efficaci.

Scopri come Razorfish usa EMR per l'analisi dei dati di clickstream »

Analisi in tempo reale

Acquisisci ed elabora dati in tempo reale da Amazon Kinesis, Apache Kafka o altri flussi di dati con Spark Streaming in Amazon EMR. Esegui analisi di flussi con tolleranza ai guasti e salvataggio dei risultati in Amazon S3 o HDFS.

Scopri come Hearst usa Spark Streaming »

Analisi di log

Amazon EMR è ideale per elaborare i log generati da applicazioni Web e app mobili. Amazon EMR consente di trasformare dati parzialmente o non strutturati in informazioni strategiche su applicazioni e utenti.

Estrazione, trasformazione e caricamento dei dati (ETL)

Amazon EMR può essere utilizzato per eseguire operazioni di estrazione, trasformazione e caricamento dei dati o ETL (Extract, Transform, Load), ad esempio ordinamento, aggregazione e unione in set di dati di grandi dimensioni.

Scopri come Redfin usa cluster EMR temporanei per operazioni di trasformazione »

Analisi predittive

Apache Spark in Amazon EMR include MLlib, che offre algoritmi scalabili di apprendimento automatico; in alternativa, è possibile impiegare librerie personalizzate. Poiché memorizza set di dati in memoria, Spark è in grado di offrire prestazioni elevate per carichi di lavoro di apprendimento automatico.

Scopri come Intent Media usa Spark MLlib »

Genomica

La mappatura di un genoma, con la sua enorme mole di dati, è un'applicazione che sfrutta particolarmente la rapidità e l'efficienza fornite da Amazon EMR. I ricercatori che lavorano in questo campo possono accedere gratuitamente ai dati genomici in hosting su AWS.

Scopri il rapporto tra Apache Spark e medicina di precisione

Casi di studio

Inizia a usare AWS

icon1

Registrati per creare un account AWS

Ottieni accesso istantaneo al piano gratuito di AWS.
icon2

Impara con i tutorial di 10 minuti

Esplora e impara con semplici tutorial.
icon3

Inizia a lavorare con AWS

Inizia a creare con le guide dettagliate che ti aiutano a lanciare il tuo progetto AWS.

Ulteriori informazioni su Amazon EMR

Visita la pagina delle caratteristiche
Ti senti pronto?
Inizia a usare Amazon EMR
Hai altre domande?
Contattaci