Amazon EMR

Esegui Apache Spark, Hadoop, HBase, Presto, Hive e altri framework per Big Data calibrandone le risorse

Amazon EMR fornisce un framework Hadoop gestito che consente di elaborare grandi quantità di dati su un numero dinamico di istanze Amazon EC2, rendendo l'operazione più semplice, più rapida e più economica. In EMR è anche possibile eseguire altri framework distribuiti comuni, quali Apache Spark, HBase, Presto e Flink, nonché interagire con i dati contenuti in altri datastore AWS come Amazon S3 e Amazon DynamoDB. I notebook EMR, basati sui celebri notebook Jupyter, forniscono un ambiente di sviluppo e collaborazione, per analisi di query ed esplorazione ad hoc.

EMR è una soluzione sicura e affidabile per un'ampia gamma di casi d'uso per big data: analisi di log, indicizzazione Web, trasformazione dei dati (ETL), apprendimento automatico, analisi finanziarie, simulazioni scientifiche e ricerche bioinformatiche.

Un’introduzione ad Amazon EMR (3:00)

Vantaggi

Facilità d'uso

Un cluster EMR può essere avviato in pochi minuti. Non è più necessario preoccuparsi di allocare nodi, impostare cluster, configurare Hadoop oppure ottimizzare i cluster. Di tutto questo si occupa EMR, per permetterti di focalizzarti sull’analisi. Anche i data scientist, gli sviluppatori e gli analisti possono utilizzare i notebook EMR, un ambiente gestito basato sui notebook Jupyter, per creare applicazioni e collaborare con i peer.

Costi ridotti

I costi di EMR sono chiari e semplici da calcolare: si paga una tariffa per istanza, con un addebito minimo di 1 minuto. Puoi lanciare un cluster EMR a 10 nodi con applicazioni quali Hadoop, Spark, e Hive, per soli 0,15 USD all’ora. Grazie al supporto nativo di EMR per le istanze Spot e riservate di Amazon EC2, è possibile risparmiare inoltre tra il 50 e l'80% del costo delle istanze sottostanti.

Elastic

Con EMR è possibile effettuare il provisioning di una, centinaia o migliaia di istanze di calcolo, per essere in grado di elaborare qualsiasi volume di dati. Il numero di istanze può essere aumentato o diminuito manualmente o con Auto Scaling con la massima semplicità e i prezzi sono calcolati in base all'uso effettivo. EMR, inoltre, disaccoppia le istanze di calcolo e lo storage persistente, per una scalabilità indipendente.

Affidabilità

Il tempo speso per monitoraggio e configurazione del cluster è destinato a calare. EMR adotta già le impostazioni di Hadoop per ottimizzarne il funzionamento nel cloud ed esegue il monitoraggio del cluster, riavviando le attività con errori e sostituendo automaticamente le istanze con prestazioni insufficienti. EMR fornisce l’ultima versione di rilascio del software open source stabile, così non devi gestire aggiornamenti e correzioni di bug, per meno problemi e meno sforzi nel mantenere l’ambiente.

Sicurezza

EMR configura in modo automatico le impostazioni del firewall di EC2 che controllano l'accesso alle istanze; consente inoltre di avviare Amazon Virtual Private Cloud (VPC), una rete isolata logicamente definita dall'utente. Per gli oggetti archiviati in S3, è possibile utilizzare la crittografia lato server di S3 o lato client di Amazon S3 con EMRFS, AWS Key Management Service oppure con chiavi gestite dal cliente. Inoltre, è possibile abilitare altre opzioni di crittografia e l'autenticazione con Kerberos.

Flessibilità

Amazon EMR offre il controllo completo del cluster. È possibile accedere in root a qualsiasi istanza, installare applicazioni aggiuntive con la massima semplicità e personalizzare ogni cluster con operazioni di bootstrap. È anche possibile lanciare cluster di EMR con AMI Amazon Linux personalizzate.

Casi d'uso

Analisi dei dati di clickstream

Con EMR è possibile analizzare dati di clickstream per dividere gli utenti in categorie, fare luce sulle preferenze degli utenti e pubblicare inserzioni più efficaci.

Scopri come Razorfish usa EMR per l'analisi dei dati di clickstream »

Analisi in tempo reale

Acquisisci ed elabora dati in tempo reale da Amazon Kinesis, Apache Kafka o altri flussi di dati con Spark Streaming in EMR. Esegui analisi di flussi con tolleranza ai guasti e salvataggio dei risultati in S3 o HDFS.

Scopri come Hearst usa Spark Streaming »

Analisi di log

EMR è ideale per elaborare i log generati da applicazioni Web e app mobili. EMR consente di trasformare dati parzialmente o non strutturati in informazioni strategiche su applicazioni e utenti.

Estrazione, trasformazione e caricamento dei dati (ETL)

EMR può essere utilizzato per eseguire operazioni di estrazione, trasformazione e caricamento dei dati o ETL (Extract, Transform, Load), ad esempio ordinamento, aggregazione e unione in set di dati di grandi dimensioni.

Scopri come Redfin usa cluster EMR temporanei per operazioni di trasformazione »

Analisi predittive

Apache Spark in EMR include MLlib, che offre algoritmi scalabili di apprendimento automatico; in alternativa, è possibile impiegare librerie personalizzate. Poiché memorizza set di dati in memoria, Spark è in grado di offrire prestazioni elevate per carichi di lavoro di apprendimento automatico.

Scopri come Intent Media usa Spark MLlib »

Genomica

La mappatura di un genoma, con la sua enorme mole di dati, è un'applicazione che sfrutta particolarmente la rapidità e l'efficienza fornite da EMR. I ricercatori che lavorano in questo campo possono accedere gratuitamente ai dati genomici in hosting su AWS.

Scopri il rapporto tra Apache Spark e medicina di precisione

Casi di studio

Inizia a usare AWS

icon1

Registrati per creare un account AWS

Ottieni accesso istantaneo al piano gratuito di AWS.
icon2

Impara con i tutorial di 10 minuti

Esplora e impara con semplici tutorial.
icon3

Inizia a lavorare con AWS

Inizia a creare con le guide dettagliate che ti aiutano a lanciare il tuo progetto AWS.

Ulteriori informazioni su Amazon EMR

Visita la pagina delle caratteristiche
Tutto pronto per cominciare?
Inizia a usare Amazon EMR
Hai altre domande?
Contattaci