Ottimizzazione di cluster Amazon EMR per costi e dimensionamento

con le istanze EC2 Spot e Amazon EMR

Amazon EMR fornisce un framework Hadoop gestito che consente di elaborare grandi quantità di dati su un numero dinamico di istanze Amazon EC2, rendendo l'operazione più semplice, più rapida e più economica. Puoi anche eseguire altri framework distribuiti comuni, quali Apache Spark, HBase, Presto e Flink in EMR nonché interagire con i dati contenuti in altri datastore AWS come Amazon S3 e Amazon DynamoDB. I notebook EMR, basati sui celebri notebook Jupyter, forniscono un ambiente di sviluppo e collaborazione, per analisi di query ed esplorazione ad hoc. EMR è una soluzione sicura e affidabile per un'ampia gamma di casi d'uso per big data: analisi di log, indicizzazione Web, trasformazione dei dati (ETL), apprendimento automatico, analisi finanziarie, simulazioni scientifiche e ricerche bioinformatiche.

Le istanze di Amazon EC2 Spot forniscono capacità di calcolo inutilizzata nel cloud AWS per offrire sconti significativi sui prezzi delle istanze on demand. Le istanze Spot possono tuttavia essere interrotte da EC2 con un preavviso di due minuti, nel momento in cui EC2 necessita di capacità di calcolo. Puoi utilizzare le istanze Spot per diverse applicazioni flessibili e tolleranti ai guasti. Alcuni esempi sono analisi, carichi di lavoro containerizzati, elaborazione ad alte prestazioni (HPC), server Web stateless, rendering, CI/CD e altri carichi di lavoro di test e sviluppo.

In questo tutorial, scoprirai come avviare il tuo primo cluster Amazon EMR su istanze di Amazon EC2 Spot tramite la procedura guidata Crea cluster. L'esecuzione di Amazon EMR su istanze Spot riduce drasticamente il costo dei Big Data, consente una capacità di elaborazione significativamente più elevata e riduce i tempi di elaborazione di grandi set di dati.

Informazioni sul tutorial
Durata 10-20 minuti      
Costo Gratis
Caso d'uso Calcolo
Prodotti Amazon EMR, istanze EC2 Spot
Livello 200
Ultimo aggiornamento 4 febbraio 2020

Fase 1: Creazione di un cluster con le opzioni avanzate

1.1 - Apri una finestra del browser e passa alla console di Amazon EMR; in alternativa puoi cercare EMR o trovare Amazon EMR nella sezione Analisi della pagina iniziale della console. Se hai già un account AWS, accedi alla console. Altrimenti, crea un nuovo account AWS per iniziare.

1.2 - Nell'angolo in alto a destra, seleziona la regione in cui desideri lanciare il cluster Amazon EMR.

1.3 - Fai clic su Crea cluster nella finestra di Amazon EMR.

1.4 - Fai clic su Vai alle opzioni avanzate nella finestra Crea cluster.

Fase 2: Configurazione del software del cluster e fasi successive

2.1 - Nella sezione di configurazione software, seleziona il software richiesto per il tuo cluster oppure conferma le opzioni predefinite per iniziare più rapidamente.

2.2 - Facoltativamente immetti le eventuali informazioni di configurazione richieste per collegarti al Catalogo dati di AWS Glue e specifica i file di configurazione da utilizzare durante la configurazione del software del cluster.

Lascia disabilitata l’opzione Utilizza più nodi master per aumentare la disponibilità del cluster, in quanto questa opzione non è compatibile con i parchi istanza che verranno configurati nelle fasi successive.

2.3 - Configura eventuali fasi che desideri esegua il cluster una volta effettuato il provisioning oppure ignora questa fase per passare rapidamente al lancio del cluster.

Per inoltrare il lavoro al framework Spark installato in un cluster EMR puoi utilizzare Amazon EMR. Consulta le fasi nella guida alla gestione di Amazon EMR per ulteriori informazioni. Nella console e nell’interfaccia a riga di comando ciò è possibile utilizzando un’applicazione Spark che esegue lo script spark-submit come operazione per tuo conto. Con l’API, utilizza invece una fase per richiamare lo script spark-submit utilizzando command-runner.jar.

2.4 - Dopo una rapida revisione della tua configurazione software sei pronto a passare alla fase successiva e configurare l’hardware dei cluster.

Fai clic su Successivo per continuare.

Fase 3: Configurazione di parchi istanze

3.1 - Seleziona i parchi istanze nella sezione della configurazione del gruppo di istanze.

I parchi istanze ci consentiranno di implementare la diversificazione delle istanze, che è una delle best practice chiave per sfruttare le istanze Spot di EC2. La diversificazione delle istanze ti consente di utilizzare più tipi di istanze, assicurando che Amazon EMR possa allocare tutta la capacità necessaria per il tuo cluster gestendo automaticamente le interruzioni.

3.2 - Seleziona il VPC e una o più sottoreti in cui distribuire il cluster Amazon EMR.

Ti consigliamo di scegliere più di una zona di disponibilità. Il cluster verrà comunque distribuito in una singola zona di disponibilità, tuttavia la selezione di più zone consente ad Amazon EMR di esaminare tutte le zone disponibili per distribuire il cluster nella zona di disponibilità con la maggiore capacità EC2 Spot per eseguire il cluster.

3.3 - Configura le dimensioni del volume EBS del dispositivo root in base alle necessità oppure lasciare i valori predefiniti per continuare.

3.4 - Scorri verso il basso fino alla sezione parchi istanze dell’attività e seleziona aggiungi/rimuovi tipi di istanze al parco.

I parchi istanze consentono di specificare fino a cinque tipi di istanze per parco in modo che Amazon EMR possa fornire capacità da più pool di capacità EC2 Spot disponibile.

Consigliamo di utilizzare istanze on demand per nodi master e core a meno che non si stiano avviando carichi di lavoro particolarmente effimeri.

Scopri di più sui casi d'uso tipici e consulta i consigli per l'utilizzo delle istanze Spot di EC2 con Amazon EMR su questa pagina.

3.5 - Seleziona un massimo di cinque tipi di istanze da utilizzare nel parco istanze del nodo dell’attività. È necessario considerare i tipi di istanza con vcpu simili ai rapporti di memoria tra più famiglie di istanze.

Utilizza Spot Instance Advisor per saperne di più sulla riduzione dei costi medi e sul tasso di interruzione per le istanze compatibili EMR. 

3.6 - Configura le unità spot e on demand del tuo parco istanze e configura facoltativamente le unità di ciascun tipo di istanza.

L'aumento del numero di unità spot e on demand determinerà la quantità di capacità fornita per il cluster. Per iniziare rapidamente e ridurre il costo di questa procedura dettagliata, consigliamo di distribuire solo un numero limitato di unità spot (ad esempio 8) e nessuna unità on demand.

Per impostazione predefinita, le unità di ciascun tipo di istanza corrisponderanno al numero di vCore per quel tipo di istanza. Puoi configurare le unità per dare più peso a diversi tipi di istanza, che verranno presi in considerazione quando Amazon EMR soddisfa la capacità del tuo parco istanze.

Puoi anche specificare il numero di unità che saranno prese in considerazione dalle istanze on demand o spot di EC2. Ciò consente di combinare più tipi di istanza e opzioni di acquisto per ottenere la diversificazione delle istanze e la capacità richiesta per il cluster.

3.7 - Facoltativamente, configura il comportamento di durata definita e timeout di provisioning per il tuo cluster.

Il timeout di provisioning consente di definire il comportamento del cluster se Amazon EMR non è in grado di fornire la capacità per il tuo parco istanze. Il comportamento predefinito è Termina; tuttavia, è possibile far sì che il cluster provi a eseguire il provisioning delle istanze on demand anziché delle istanze spot se il timeout viene superato.

Puoi avere ulteriori informazioni su queste offerte in questa pagina.

3.8 - Dopo una rapida revisione della tua configurazione hardware sei pronto a passare alla fase successiva e configurare le impostazioni generali dei cluster.

Fai clic su Successivo per continuare.

Fase 4: Impostazioni generali del cluster

4.1 - Specifica un nome per il tuo cluster o accetta il nome predefinito my cluster per continuare.

Se lo desideri, puoi configurare la registrazione, il debug e la protezione con arresto

Per maggiori informazioni su registrazione e debug, fai clic qui.

Per maggiori informazioni sulla protezione con arresto, fai clic qui.

4.2 - Facoltativamente, configurare eventuali tag rilevanti per il tuo cluster. I tag sono utili per identificare a quale team o a quale ambiente appartiene il cluster che stai creando.

Per maggiori informazioni sull’aggiunta di tag, consulta questa pagina.
 

4.3 - Facoltativamente, configura eventuali opzioni aggiuntive richieste per il tuo cluster, come ad esempio una vista coerente con EMRFS, un ID AMI personalizzato o le azioni bootstrap.

4.4 - Dopo una rapida revisione della tua configurazione hardware generale del cluster sei pronto a passare alla fase successiva e configurare le impostazioni di sicurezza dei cluster.

Fai clic su Successivo per continuare. 

Fase 5: Sicurezza

5.1 - Imposta facoltativamente qualsiasi configurazione di sicurezza richiesta per il cluster, inclusi coppie di chiavi, ruoli e profili di istanza, gruppi di sicurezza e crittografia.

5.2 - Dopo una rapida revisione della configurazione di sicurezza dei cluster, sei pronto a creare il tuo cluster.

Fai clic su Crea cluster per avviare il tuo nuovo cluster Amazon EMR in esecuzione sulle istanze EC2 Spot.

Complimenti

Hai avviato un cluster Amazon EMR su istanze EC2 Spot. Ora sei pronto per integrare le istanze Spot nei cluster EMR e iniziare a ottimizzare i carichi di lavoro di Big Data per costi e prestazioni.

Questo tutorial è stato utile?

Grazie
Facci sapere cosa ti è piaciuto.
Spiacenti di non esserti stati d'aiuto
C'è qualcosa di obsoleto, ambiguo o approssimativo? Aiutaci a migliorare questo tutorial con il tuo feedback.

Esecuzione di app Spark con EMR

Ora che hai imparato come utilizzare le istanze EC2 Spot con Amazon EMR, sei pronto per implementare i parchi istanze e le altre best practice che hai appreso nei tuoi carichi di lavoro. Se desideri continuare il tuo apprendimento, ti consigliamo di seguire il workshop personalizzato presente in questa pagina.

Consulta la documentazione

Scopri le funzionalità e le capacità di Amazon EMR leggendo la guida alla gestione di Amazon EMR.

Scopri le istanze di Amazon EC2 Spot

Per saperne di più, visita la pagina del prodotto delle istanze di Amazon EC2 Spot e consulta documentazione, video, blog e altre risorse.