Scopri come utilizzare Amazon EMR, Amazon Redshift, Amazon Kinesis, Amazon Athena e gli altri servizi della piattaforma per i Big Data di AWS per elaborare i dati e creare ambienti di Big Data

Big Data on AWS fornisce un'introduzione alle soluzioni per i Big Data basate su cloud come Amazon EMR, Amazon Redshift, Amazon Kinesis e gli altri servizi della piattaforma per i Big Data di AWS. In questo viene illustrato come utilizzare Amazon EMR per elaborare dati con il vasto ecosistema degli strumenti Hadoop quali Hive e Hue. Inoltre verrà spiegato come creare ambienti per i Big Data, come utilizzare Amazon DynamoDB, Amazon Redshift, Amazon Athena e Amazon Kinesis e come applicare le best practice per la progettazione di ambienti per i Big Data in modo da ottenere massima sicurezza e costi contenuti.

Livello

Intermedio

Modalità

Con istruttore, lezioni frontali e virtuali

Durata

3 giorni

Al termine del corso sarai in grado di:

  • Adattare le soluzioni AWS all'interno di un ecosistema dei Big Data.
  • Utilizzare Apache Hadoop nell'ambito di Amazon EMR.
  • Identificare i componenti di un cluster Amazon EMR.
  • Lanciare e configurare un cluster Amazon EMR.
  • Sfruttare i quadri di programmazione comuni disponibili per Amazon EMR, tra cui Hive, Pig e Streaming.
  • Sfruttare Hue per migliorare la facilità di utilizzo di Amazon EMR.
  • Utilizzare analisi in memoria con Spark in Amazon EMR.
  • Scegliere le opzioni di storage dei dati AWS opportune.
  • Individuare i vantaggi dell'uso di Amazon Kinesis per un'elaborazione dei Big Data quasi in tempo reale.
  • Sfruttare Amazon Redshift per archiviare e analizzare i dati in modo efficiente.
  • Spiegare e gestire i costi e la sicurezza di una soluzione per Big Data.
  • Rendere sicura una soluzione per Big Data.
  • Selezionare le opzioni più adatte in materia di acquisizione, trasferimento e compressione dei dati.
  • Utilizzare Amazon Athena per analisi delle query ad hoc.
  • Utilizzare software di visualizzazione per creare grafici con dati e query utilizzando Amazon QuickSight.
  • Organizzare flussi di lavoro di Big Data utilizzando AWS Data Pipeline.

Questo corso è rivolto a:

  • Individui responsabili di progettazione e implementazione di soluzioni per i Big Data, ovvero solutions architect
  • Data scientist e analisti dei dati interessati ad apprendere i servizi e i modelli architetturali dietro le soluzioni per Big Data in AWS

Prima di accedere al corso, i partecipanti sono invitati a soddisfare i seguenti requisiti preliminari:

  • Familiarità di base con le tecnologie di Big Data, tra cui Apache Hadoop, MapReduce, HDFS e query SQL/NoSQL
  • Gli studenti devono completare il corso di formazione gratuito sul Web Big Data Technology Fundamentals o avere un livello equivalente di esperienza
  • Conoscenze operative dei servizi AWS principali e dell'implementazione del cloud pubblico
  • Gli studenti devono completare il corso AWS Technical Essentials o avere un livello equivalente di esperienza
  • Comprensione di base di data warehousing, sistemi di database relazionali e progettazione di database

Questo corso è composto da una combinazione di:

  • Lezioni tenute da istruttore
  • Lezioni pratiche

Questo corso consente di mettere alla prova le competenze acquisite in un ambiente di lavoro mediante una serie di esercizi pratici

Nota: il programma del corso può variare leggermente a seconda della posizione regionale e/o della lingua in cui si tiene il corso.

Giorno 1

  • Panoramica dei big data
  • Acquisizione e trasferimento di Big Data
  • Flussi di Big Data e Amazon Kinesis
  • Esercizio 1: utilizzare Amazon Kinesis per streaming e analisi di dati di log di un server Apache
  • Soluzioni per lo storage di Big Data
  • Analisi ed elaborazione di Big Data
  • Esercizio 2: utilizzare Amazon Athena per interrogare i dati di log di Amazon S3

Giorno 2

  • Apache Hadoop e Amazon EMR
  • Esercizio 3: memorizzare e interrogare i dati in Amazon DynamoDB
  • Utilizzo di Amazon EMR
  • Quadri di programmazione Hadoop
  • Esercizio 4: elaborare log di server con Hive in Amazon EMR
  • Interfacce Web in Amazon EMR
  • Esercizio 5: elaborare script Pig in Hue in Amazon EMR
  • Apache Spark in Amazon EMR
  • Esercizio 6: elaborare i dati sui taxi di New York utilizzando Spark in Amazon EMR

Giorno 3

  • Amazon Redshift e i Big Data
  • Visualizzazione e orchestrazione di Big Data
  • Esercizio 7: usare TIBCO Spotfire per la visualizzazione dei data
  • Gestione dei costi dei Big Data
  • Sicurezza nelle distribuzioni di Amazon
  • Modelli di progettazione per Big Data
Big Data Thumbnail

Accedi a aws.training