Amazon EMR

Esegui Apache Spark, Hadoop, HBase, Presto, Hive e altri framework per Big Data calibrandone le risorse

Amazon EMR è la piattaforma dei Big Data nativa per il cloud leader del settore e consente ai team di elaborare grandi quantità di dati in modo rapido e conveniente su scala. Grazie all'uso di strumenti open source come Apache Spark, Apache Hive, Apache HBase, Apache Flink e Presto, insieme alla scalabilità dinamica di Amazon EC2 e allo storage scalabile di Amazon S3, EMR assicura ai team di analisi i motori e l'elasticità per eseguire analisi sulla scala di petabyte a una frazione del costo dei cluster locali tradizionali. Sviluppatori e analisti possono utilizzare notebook EMR basati su Jupyter per lo sviluppo iterativo, la collaborazione e l'accesso ai dati archiviati sui prodotti dati AWS come Amazon S3, Amazon DynamoDB e Amazon Redshift per ridurre il tempo per ottenere informazioni dettagliate e rendere l'analisi rapidamente operativa.

I clienti di più ambiti settoriali utilizzano EMR per gestire in modo affidabile e sicuro ampi set di casi d'uso di Big Data, tra cui machine learning, trasformazioni di dati (ETL), simulazione finanziaria e scientifica, bioinformatica, analisi di log e deep learning. EMR assicura ai team la flessibilità per eseguire i casi d'uso su cluster monofunzionali di breve durata che si ridimensionano automaticamente per soddisfare la domanda o su cluster di lunga durata ad elevata disponibilità utilizzando la nuova modalità di distribuzione multi-master. 

Un’introduzione ad Amazon EMR (3:00)

Vantaggi

Facilità d'uso

EMR avvia i cluster in pochi minuti. Non è più necessario preoccuparsi di allocare nodi, impostare l'infrastruttura, configurare Hadoop oppure ottimizzare i cluster. Di tutto questo si occupa EMR, per permetterti di focalizzarti sull’analisi. Analisti, tecnici dei dati e data scientist possono avviare un notebook Jupyter serverless in pochi secondi con EMR Notebooks e consentire così a singoli e team di collaborare ed esplorare, elaborare e visualizzare interattivamente i dati in un formato notebook di facile utilizzo.

Costi ridotti

I costi di EMR sono chiari e semplici da calcolare: si paga una tariffa per istanza per ogni secondo usufruito, con un addebito minimo di 1 minuto. Puoi avviare un cluster EMR a 10 nodi con applicazioni quali Apache Spark e Apache Hive, per soli 0,15 USD all'ora. Grazie al supporto nativo di EMR per le istanze Spot e riservate di Amazon EC2, è possibile risparmiare inoltre tra il 50 e l'80% del costo delle istanze sottostanti.

Elastic

Con EMR è possibile effettuare il provisioning di una, centinaia o migliaia di istanze di calcolo, per essere in grado di elaborare qualsiasi volume di dati. Il numero di istanze può essere aumentato o ridotto manualmente o automaticamente con Auto Scaling (che gestisce le dimensioni dei cluster in base all'utilizzo) e i prezzi sono calcolati solo in base all'uso effettivo. A differenza della rigida infrastruttura dei cluster locali, EMR disaccoppia lo storage di calcolo e persistente e consente di ridimensionare ciascuno in modo autonomo.

Affidabilità

Minor tempo dedicato a monitoraggio e configurazione del cluster. EMR è ottimizzato per il cloud ed esegue il monitoraggio costante del cluster, riavviando le attività con errori e sostituendo automaticamente le istanze con prestazioni insufficienti. EMR fornisce l’ultima release del software open source stabile, così non devi gestire aggiornamenti e correzioni di bug, con conseguenti minori problemi e impegno nel mantenere l’ambiente. Con più nodi master, i cluster sono caratterizzati da elevata disponibilità e failover automatico in caso di errore del nodo.

Sicurezza

EMR configura in modo automatico le impostazioni del firewall di EC2 che controllano l'accesso di rete alle istanze; consente inoltre di avviare i cluster in un Amazon Virtual Private Cloud (VPC), una rete isolata logicamente definita dall'utente. Per gli oggetti archiviati in S3, è possibile utilizzare la crittografia lato server o lato client con EMRFS (un object store per Hadoop su S3) utilizzando AWS Key Management Service o le chiavi gestite dal cliente. EMR facilita l'abilitazione di altre opzioni di crittografia, come la crittografia dei dati in-transito e dei dati inattivi e l'autenticazione avanzata con Kerberos.

Flessibilità

L'utente ha il controllo completo del cluster. È possibile accedere in root a qualsiasi istanza, installare applicazioni aggiuntive con la massima semplicità e personalizzare ogni cluster con operazioni di bootstrap. È anche possibile avviare i cluster EMR con AMI Amazon Linux personalizzate e riconfigurare al volo i cluster in esecuzione senza dover riavviare il cluster.

Casi d'uso

Machine learning

Utilizza gli strumenti incorporati di machine learning di EMR, tra cui Apache Spark MLlib, TensorFlow e Apache MXNet, per gli algoritmi di machine learning scalabili e utilizza AMI personalizzate e bootstrap actions per aggiungere facilmente le tue librerie e gli strumenti preferiti e creare il tuo personale set di strumenti di analisi predittiva.

Scopri come Intent Media usa Spark MLlib »

Estrazione, trasformazione e caricamento dei dati (ETL)

EMR può essere utilizzato per eseguire operazioni di estrazione, trasformazione e caricamento dei dati o ETL (Extract, Transform, Load), ad esempio ordinamento, aggregazione e unione in set di dati di grandi dimensioni.

Scopri come Redfin usa cluster EMR temporanei per operazioni ETL »

Analisi dei dati di clickstream

Analizza i dati di clickstream provenienti da Amazon S3 con Apache Spark e Apache Hive per dividere gli utenti in categorie, fare luce sulle preferenze degli utenti e pubblicare inserzioni più efficaci.

Scopri come Razorfish usa EMR per l'analisi dei dati di clickstream »

Streaming in tempo reale

Analizza gli eventi di Apache Kafka, Amazon Kinesis o di altre origini dati di streaming in tempo reale con Apache Spark Streaming ed EMR, per creare pipeline di dati di streaming di lunga durata, ad elevata disponibilità e con tolleranza agli errori. Permanenza dei set di dati trasformati in Amazon S3 o HDFS e approfondimenti in Amazon Elasticsearch.

Scopri come Hearst usa Spark Streaming »

Analisi interattiva

I notebook EMR forniscono un ambiente analitico gestito, basato sui Jupyter open source, che permette a data scientist, analisti e sviluppatori di preparare e visualizzare dati, collaborare con i peer, creare applicazioni e realizzare analisi interattive.

Genomica

La mappatura di un genoma, con la sua enorme mole di dati, è un'applicazione che sfrutta particolarmente la rapidità e l'efficienza fornite da EMR. I ricercatori che lavorano in questo campo possono accedere gratuitamente ai dati genomici in hosting su AWS.

Scopri il rapporto tra Apache Spark e medicina di precisione

Casi di studio

Ricerche degli analisti

1

Inizia a usare AWS

Step 1 - Sign up for an AWS account

Registrati per creare un account AWS

Ottieni accesso istantaneo al piano gratuito di AWS.
icon2

Impara con i tutorial di 10 minuti

Esplora e impara con semplici tutorial.
icon3

Inizia a lavorare con AWS

Inizia a creare con le guide dettagliate che ti aiutano a lanciare il tuo progetto AWS.

Esegui la migrazione dei Big Data da locale ad AWS

Leggi la Guida alla migrazione di Amazon EMR Richiedi un workshop sulla migrazione di Amazon EMR in loco

Ulteriori informazioni su Big Data on AWS

Visita il blog sui Big Data