AWS Quick Start – Soluzioni pronte per il cliente

Data Lake con Talend Big Data Platform

Uso di Talend Big Data Platform, dei servizi AWS e delle best practice di Cognizant

Questa architettura di Quick Start crea un ambiente di data lake nel cloud di Amazon Web Services (AWS) mediante la distribuzione dei componenti della piattaforma Talend Big Data e di servizi AWS come Amazon EMR, Amazon Redshift, Amazon Simple Storage Service (Amazon S3) e Amazon Relational Database Service (Amazon RDS).

Quick Start fornisce, inoltre, un set di dati campione opzionale e processi di Talend sviluppati da Cognizant Technology Solutions per illustrare le best practice sui Big Data per l’integrazione delle tecnologie Apache Spark, Apache Hadoop, Amazon EMR, Amazon Redshift e Amazon S3 nel processo di implementazione del data lake.

Questa architettura di Quick Start è pensata per gli utenti che stanno valutando i Big Data per il cloud o che intendono accelerare i loro progetti sui Big Data attraverso l'adozione di best practice per la loro integrazione.

Puoi scegliere se creare una nuova infrastruttura di cloud privato virtuale (VPC, Virtual Private Cloud), opportunamente configurata per garantire sicurezza, scalabilità ed elevata disponibilità oppure utilizzare l’infrastruttura VPC esistente per il data lake.

datalake_icon_crs_talend

Questa architettura di Quick Start è stata sviluppata da Cognizant Technology Solutions e Talend Inc.in collaborazione con AWS. Cognizant e Talend sono
partner APN.

  •  Attività da completare
  •  Come effettuare la distribuzione
  •  Costi e licenze
  •  Risorse
  •  Attività da completare
  • L’architettura Quick Start per il data lake include i seguenti componenti:

    • Un cloud privato virtuale (VPC, Virtual Private Cloud) che copre due zone di disponibilità. Ciascuna zona di disponibilità contiene due sottoreti: una sottorete pubblica, che consente di connettersi a Internet, e una sottorete privata per i server dei processi Talend, Amazon Redshift, Amazon RDS e Amazon EMR. (La sottorete privata nella seconda zona di disponibilità contiene esclusivamente i server dedicati ai processi.)*
    • Un Internet gateway per consentire l’accesso a Internet. Questo gateway è utilizzato dai bastion host per inviare e ricevere traffico.*
    • Nelle sottoreti pubbliche, dei gateway NAT (Network Address Translation) gestiti per consentire l’accesso a Internet in uscita per le risorse nelle sottoreti private.*
    • In una o entrambe le sottoreti pubbliche, gli host Linux Bastion consentono l’accesso Secure Shell (SSH) in entrata alle risorse nelle sottoreti private. Quando si lancia Quick Start si può scegliere il numero del bastion host.*
    • Nella sottorete pubblica, nella prima zona di disponibilità:
      • I server pubblici di Talend che ospitano il Talend Administration Center (TAC), incaricato dell’amministrazione dei processi di Talend con il browser.
      • Un’istanza di Talend Studio Remote Desktop disponibile mediante un client X2Go per gli utenti che non desiderano eseguire Talend Studio sul proprio laptop.
      • Un repository fittizio Nexus e server Git per la gestione della configurazione dei protocolli binari e delle origini dei dati.
      • Un log server Talend che utilizza Amazon Elasticsearch Service (Amazon ES), Logstash e Kibana.
    • Nella sottorete privata, nella prima zona di disponibilità:
      • Un’istanza di database MySQL Amazon RDS per ospitare i metadati di Talend.
      • Un cluster Amazon EMR dotato di Pig, Hive e Spark, altamente integrato con Talend Big Data Platform, che fornisce funzionalità Hadoop per il data lake.
      • Un cluster Amazon Redshift da usare come data warehouse o data mart.
    • Nelle sottoreti private le istanze del server dei processi Talend eseguono i processi programmati da Talend Administration Center (TAC) in un gruppo Auto Scaling. Auto Scaling consente l’attivazione o la disattivazione automatica delle istanze EC2 per rispondere alle richieste sui server dedicati ai processi di Talend. È possibile impostare il numero massimo di istanze che si desidera accettare durante la distribuzione.
    • Nelle sottoreti pubbliche Talend Distant esegue le istanze del server dei processi di Talend per conto degli utenti di Talend Studio in un gruppo Auto Scaling. Si possono eseguire i processi di Talend in locale su Talend Studio o su questi server. Il gruppo Auto Scaling consente l’attivazione o la disattivazione automatica delle istanze EC2 per rispondere alle richieste sui server dedicati ai processi di Talend. È possibile impostare il numero di istanze massimo che si desidera accettare durante la distribuzione.
    • Amazon S3 per acquisire i dati per il data lake.

     

    *  Il modello che distribuisce Quick Start in un VPC esistente non include le attività contrassegnate con un asterisco e chiede che venga utilizzata la configurazione VPC esistente.

  •  Come effettuare la distribuzione
  • Puoi creare il tuo ambiente di data lake in AWS in circa 1 ora, seguendo pochi semplici passaggi:

    1. Se non disponi ancora di un account AWS, registrati su https://aws.amazon.com.
    2. Carica la tua licenza per Talend Big Data Platform su un bucket S3 privato. Puoi registrarti sul sito Web di Talend e riceverai gratuitamente una licenza di prova valida per 30 giorni.
    3. Avvia Quick Start. Puoi scegliere tra due opzioni alternative:
    4. Verifica la distribuzione avviando Talend Administration Center (TAC) e controllando la distribuzione dei server realizzata da Quick Start. Puoi inoltre eseguire i processi di Talend opzionali per verificare l’integrazione end-to-end dei dati, seguendo i passaggi descritti nella guida per l’utente fornita da Talend e Cognizant.  

    Quick Start consente di personalizzare alcuni parametri. Ad esempio, puoi configurare la tua rete o le impostazioni di Talend Administration Center (TAC), Amazon Redshift, Nexus e del server Git.

  •  Costi e licenze
  • Ti saranno addebitati i costi dei servizi AWS utilizzati per eseguire questa distribuzione di riferimento Quick Start. Non sono previsti costi aggiuntivi per l'utilizzo del Quick Start.

    I modelli di AWS CloudFormation per questo Quick Start comprendono alcuni parametri di configurazione personalizzabili. Alcune di queste impostazioni, ad esempio il tipo di istanza, incideranno sul costo della distribuzione. Per una stima dei costi, consulta la pagina dei prezzi di ciascuno dei servizi AWS che intendi utilizzare. 

    Dovrai specificare la tua licenza di Talend Big Data Platform. Per richiedere una licenza di prova gratuita valida per 30 giorni, compila il modulo di registrazione sul sito Web di Talend. Riceverai una chiave di licenza univoca da Talend, che dovrai utilizzare durante la procedura di distribuzione di Quick Start.

    I codici per tutti i processi inclusi in Quick Start sono rilasciati con la Licenza Apache.

  •  Risorse
  • Questa distribuzione di riferimento di Quick Start è relativa a una soluzione presente in Solution Space che include una descrizione della soluzione, offerte di consulenza opzionali realizzate dai partner del programma AWS Competency Program e co-investimento AWS in progetti proof of concept (PoC). Per ulteriori informazioni su queste risorse, visita Solution Space.