Video: A Technical Introduction to Amazon EMR (AWS re:Invent, ottobre 2015, durata: 50 minuti)

Amazon EMR offre un framework gestito che semplifica, protegge e rende conveniente l'esecuzione di framework di elaborazione dei dati come Apache Hadoop, Apache Spark e Presto in AWS. In questa presentazione apprenderai i principi di progettazione chiave relativi all'esecuzione di questi framework nel cloud e scoprirai l'insieme di funzionalità offerto da Amazon EMR. Ti verranno presentati tutti i vantaggi del disaccoppiamento di elaborazione e storage e le strategie per sfruttare al massimo il dimensionamento e il parallelismo offerti dal cloud, riducendo al contempo i costi. Ascolterai inoltre un Senior Software Engineer di AOL raccontare in che modo la sua azienda ha usato queste strategie per eseguire la migrazione di carichi di lavoro Hadoop nel cloud AWS e tutte le conclusioni tratte durante questo processo.

 

Video: Amazon EMR, Deep Dive and Best Practices (AWS re:Invent, ottobre 2015, durata: 49 minuti)

In questa presentazione scoprirai i modelli di progettazione di Amazon EMR, ad esempio l'uso di Amazon S3 al posto di HDFS per sfruttare tutti i vantaggi dei cluster di lunga e breve durata, e altre best practice relative all'architettura di Amazon EMR. Descriveremo inoltre come dimensionare il cluster in modo dinamico, presentando alcuni metodi per ottimizzarlo. Apprenderai inoltre alcune best practice per ridurre i costi del cluster Amazon EMR. Approfondirai infine alcune delle soluzioni rese disponibili di recente per restare al passo con le nostre funzionalità più innovative.

  1. Sviluppa la tua applicazione di elaborazione dei dati. I linguaggi disponibili sono Java, Hive (un linguaggio simile a SQL), Pig (un linguaggio creato per l'elaborazione dei dati), Cascading, Ruby, Perl, Python, R, PHP, C++ e Node.js. Amazon EMR fornisce esempi di codice e tutorial per garantire la massima operatività il più rapidamente possibile.
  2. Carica la tua applicazione e i dati in Amazon S3. Se devi caricare grandi quantità di dati, puoi valutare se usare AWS Import/Export Snowball, per caricare i dati tramite dispositivi di storage fisici, oppure AWS Direct Connect, per stabilire una connessione di rete dedicata dal data center ad AWS. Se preferisci, puoi anche scrivere i tuoi dati direttamente in un cluster in esecuzione.
  3. Configura e avvia il cluster. Usando la Console di gestione AWS, l'interfaccia a riga di comando di AWS, gli SDK o le API, specifica il numero di istanze EC2 di cui effettuare il provisioning nel cluster, i tipi di istanze (standard, memoria elevata, CPU elevata, I/O elevato e così via), le applicazioni da installare (Hive, Pig, HBase e così via) e la posizione della tua applicazione e dei dati. Per installare altri prodotti software o modificare le impostazioni predefinite, puoi usare Bootstrap Action.
  4. Monitora il cluster (facoltativo). Puoi monitorare lo stato e l'avanzamento del cluster tramite la Console di gestione, l'interfaccia a riga di comando, gli SDK o le API. Amazon EMR si integra con Amazon CloudWatch per sfruttarne le funzionalità di monitoraggio e di generazione di allarmi; inoltre supporta molte utility di monitoraggio come, ad esempio, Ganglia. Puoi aumentare o diminuire la capacità del cluster in qualsiasi momento, a seconda delle esigenze. Per risolvere i problemi, utilizza la semplice interfaccia grafica di debug presente nella console di gestione.
  5. Recupera l'output. Puoi recuperare l'output generato da Amazon S3 o HDFS nel cluster. Per visualizzare i dati puoi usare vari strumenti, tra cui Tableau e MicroStrategy. Amazon EMR terminerà automaticamente il cluster a elaborazione conclusa. In alternativa, puoi mantenere il cluster in esecuzione e assegnargli altre attività.

Il tuo primo cluster è pronto per essere avviato?

Fai clic qui per avviare un cluster tramite la console di gestione di Amazon EMR. Nella pagina Create Cluster passa ad Advanced cluster configuration e fai clic sul pulsante grigio "Configure Sample Application" in alto a destra se desideri eseguire un'applicazione di esempio con dati di esempio.

Per leggere il testo di un tutorial dettagliato, fai clic qui. Questo tutorial contiene tutte le informazioni per creare un cluster per il conteggio della frequenza delle parole in un file di testo.

Nozioni di base su Amazon EMR

Crea un account gratuito

Serve assistenza? Scrivici!

Hai bisogno di aiuto per la creazione di un proof of concept o per il tuning delle tue applicazioni EMR? AWS ha a disposizione un team di supporto globale specializzato in EMR.  Se vuoi saperne di più riguardo agli impegni a breve termine (2-6 settimane) per il supporto a pagamento, contattaci.

Il corso Big Data on AWS è progettato per offrirti formazione pratica su come usare Amazon Web Services per carichi di lavoro di Big Data. Apprenderai a eseguire processi Amazon EMR per elaborare i dati tramite il vasto ecosistema di strumenti Hadoop come Pig e Hive. Scoprirai inoltre come creare ambienti di Big Data nel cloud usando Amazon DynamoDB e Amazon Redshift, identificare tutti i vantaggi di Amazon Kinesis e sfruttare le best practice per progettare ambienti di Big Data per analisi, sicurezza e convenienza.  Per ulteriori informazioni sul corso sui Big Data, fai clic qui.

Se prevedi di elaborare oltre 1 TB al giorno, potresti qualificarti per il bootcamp su EMR, un workshop di condivisione di informazioni e proof of concept tenuto da un AWS Solutions Architect specializzato in EMR.  Per ulteriori informazioni, fai clic qui o contattaci.

Scale Unlimited offre formazione in loco personalizzata per le società che devono imparare rapidamente a usare EMR e altre tecnologie per Big Data.  Per saperne di più, fai clic qui.