Amazon EMR

Esegui Apache Spark, Hive, Presto e altri framework per Big Data calibrandone le risorse

Amazon EMR è la piattaforma cloud di Big Data leader del settore per l'elaborazione di grandi quantità di dati tramite strumenti open source comeApache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi e Presto. EMR consente di eseguire analisi su scala Petabyte a meno della metà del costo delle tradizionali soluzioni in locale e con una velocità 3 volte superiore a quella della versione standard di Apache Spark. Per i lavori di breve durata, è possibile eseguire la rotazione e la riduzione dei cluster e pagare al secondo per le istanze utilizzate. Per carichi di lavoro di lunga durata, è possibile creare cluster a disponibilità elevata che si ridimensionano automaticamente per soddisfare la domanda. Con distribuzioni in locale esistenti di strumenti open source come Apache Spark e Apache Hive, è anche possibile eseguire i cluster EMR su AWS Outposts.

Scopri come è possibile ridurre i costi e semplificare le operazioni migrando i carichi di lavoro in locale in EMR

Scopri come Apache Hudi semplifica le pipeline per la modifica di dati di acquisizione (Change Data Capture/CDC) e le normative sulla privacy

Introduzione ad Amazon EMR (3:00)

Vantaggi

Facilità d'uso

Analisti, tecnici dei dati e data scientist utilizzano EMR Notebooks, il che consentire così a singoli e team di collaborare ed esplorare facilmente, elaborare e visualizzare interattivamente i dati. È possibile specificare semplicemente la versione delle applicazioni EMR e il tipo di calcolo che si desidera utilizzare. EMR si occupa del provisioning, della configurazione e dell'ottimizzazione dei cluster in modo da lasciarti la possibilità di concentrarti interamente sull'esecuzione dell'analisi.

Costi ridotti

I costi di EMR sono chiari e semplici da calcolare: si paga una tariffa per istanza per ogni secondo usufruito, con un addebito minimo di 1 minuto. Il prezzo di un cluster EMR da 10 nodi parte da 0,15 USD all'ora. È inoltre possibile risparmiare il 50-80% sul costo delle istanze selezionando istanze Spot di Amazon EC2 per carichi di lavoro transitori e istanze riservate per quelli di lunga durata. Inoltre, è possibile utilizzare Savings Plans.

Elastico

A differenza della rigida infrastruttura dei cluster locali, EMR disaccoppia lo storage e il calcolo e consente di ridimensionare ciascuno in modo autonomo e sfruttare lo storage su più livelli di Amazon S3. Con EMR è possibile effettuare il provisioning di una, centinaia o migliaia di istanze di calcolo, per essere in grado di elaborare qualsiasi volume di dati. Il numero di istanze può essere aumentato o ridotto automaticamente con Auto Scaling (che gestisce le dimensioni dei cluster in base all'utilizzo) e i prezzi sono calcolati solo in base all'uso effettivo.

Affidabilità

Minor tempo dedicato a monitoraggio e configurazione del cluster. EMR è ottimizzato per il cloud ed esegue il monitoraggio costante del cluster, riavviando le attività con errori e sostituendo automaticamente le istanze con prestazioni insufficienti. Con più nodi master, i cluster sono caratterizzati da elevata disponibilità e failover automatico in caso di errore del nodo. EMR fornisce l'ultima release del software open source stabile, così non devi gestire aggiornamenti e correzioni di bug, con conseguenti minori problemi e impegno nel mantenere l'ambiente.

Sicurezza

EMR configura in modo automatico le impostazioni del firewall di EC2 che controllano l'accesso di rete alle istanze; consente inoltre di avviare i cluster in un Amazon Virtual Private Cloud (VPC). È possibile utilizzare la crittografia lato server o lato client con AWS Key Management Service o usando le chiavi gestite dal cliente. EMR facilita l'abilitazione di altre opzioni di crittografia, come la crittografia dei dati in-transito e dei dati inattivi e l'autenticazione avanzata con Kerberos. È possibile utilizzare AWS Lake Formation o Apache Ranger per applicare controlli di accesso granulari ai dati per database, tabelle e colonne.

Flessibilità

Questo ti consente di avere il controllo completo sul cluster con accesso root a ogni istanza. È possibile avviare cluster EMR con AMI di Amazon Linux personalizzate e installare facilmente applicazioni aggiuntive con azioni bootstrap. EMR consente di riconfigurare al volo le applicazioni in esecuzione di cluster senza la necessità di riavviare i cluster. Inoltre, utilizzando Hadoop 3.0, è possibile impacchettare le dipendenze delle librerie in container di Docker e inviarle con i lavori per semplificare le dipendenze dell'ambiente.

Casi d'uso

Machine learning

Utilizza gli strumenti incorporati di machine learning di EMR, tra cui Apache Spark MLlib, TensorFlow e Apache MXNet, per gli algoritmi di machine learning scalabili e utilizza AMI personalizzate e bootstrap actions per aggiungere facilmente le tue librerie e gli strumenti preferiti e creare il tuo personale set di strumenti di analisi predittiva.

Estrazione, trasformazione e caricamento dei dati (ETL)

EMR può essere utilizzato per eseguire operazioni di estrazione, trasformazione e caricamento dei dati o ETL (Extract, Transform, Load), ad esempio ordinamento, aggregazione e unione in set di dati di grandi dimensioni.

Scopri come Redfin usa cluster EMR temporanei per operazioni ETL »

Analisi dei dati di clickstream

Analizza i dati di clickstream provenienti da Amazon S3 con Apache Spark e Apache Hive per dividere gli utenti in categorie, fare luce sulle preferenze degli utenti e pubblicare inserzioni più efficaci.

Streaming in tempo reale

Analizza gli eventi di Apache Kafka, Amazon Kinesis o di altre origini dati di streaming in tempo reale con Apache Spark Streaming e Apache Flink, per creare pipeline di dati di streaming di lunga durata, ad elevata disponibilità e con tolleranza agli errori in EMR. Permanenza dei set di dati trasformati in S3 o HDFS e approfondimenti in Amazon Elasticsearch Service.

Scopri come Hearst usa Spark Streaming »

Analisi interattiva

I notebook EMR forniscono un ambiente analitico gestito, basato sui Jupyter open source, che permette a data scientist, analisti e sviluppatori di preparare e visualizzare dati, collaborare con i peer, creare applicazioni e realizzare analisi interattive.

Genomica

La mappatura di un genoma, con la sua enorme mole di dati, è un'applicazione che sfrutta particolarmente la rapidità e l'efficienza fornite da EMR. I ricercatori che lavorano in questo campo possono accedere gratuitamente ai dati genomici in hosting su AWS.

Scopri il rapporto tra Apache Spark e medicina di precisione

Casi di studio

Inizia a usare AWS

Consulta la guida alla migrazione di EMR
Consulta la guida alla migrazione

Esegui la migrazione dei Big Data da locale ad AWS

Ulteriori informazioni 
Registrati per creare un account gratuito AWS
Registrati per creare un account gratuito

Ottieni accesso istantaneo al piano gratuito di AWS. 

Registrati 
Inizia a lavorare con EMR nella console
Inizia subito nella console

Inizia a lavorare con Amazon EMR nella console AWS.

Accedi 

Esegui la migrazione dei Big Data da locale ad AWS

Risorse di supporto per la pianificazione della migrazione

Ulteriori informazioni sull'analisi e sui Big Data in AWS

Leggi il blog di AWS sui Big Data