AWS Quick Start — Solutions prêtes pour le client

Lac de données avec Talend Big Data Platform

Appliquer les bonnes pratiques de Talend Big Data Platform, des services AWS et de Cognizant

Ce Quick Start crée un environnement de lac de données sur le cloud Amazon Web Services (AWS) en déployant des composants Talend Big Data Platform, ainsi que des services AWS comme Amazon EMR, Amazon Redshift, Amazon Simple Storage Service (Amazon S3) et Amazon Relational Database Service (Amazon RDS).

Il fournit également un ensemble de données échantillon et des tâches Talend en option développés par Cognizant Technology Solutions pour illustrer les pratiques du Big Data afin d'intégrer les technologies Apache Spark, Apache Hadoop, Amazon EMR, Amazon Redshift et Amazon S3 dans la mise en œuvre du lac de données.

Le Quick Start est destiné aux utilisateurs qui évaluent le Big Data dans le cloud ou qui cherchent à accélérer leurs efforts en matière de Big Data en adoptant les bonnes pratiques relatives à l'intégration de ce dernier.

Vous pouvez choisir de créer une nouvelle infrastructure virtual private cloud (VPC) configurée pour la sécurité, la scalabilité et la haute disponibilité, ou d’utiliser l’infrastructure de votre VPC existant au service du lac de données.

datalake_icon_crs_talend

Ce Quick Start a été développé par Cognizant Technology Solutions et Talend Inc. en collaboration avec AWS. Cognizant et Talend sont des
partenaires APN.

  •  Votre projet de création
  •  Comment déployer
  •  Coût et licences
  •  Ressources
  •  Votre projet de création
  • L'architecture Quick Start pour le lac de données comprend les éléments suivants :

    • Un VPC couvrant deux zones de disponibilité. Chaque zone de disponibilité contient deux sous-réseaux : un sous-réseau public, permettant la connexion via Internet, et un sous-réseau privé, alimentant les serveurs de tâches Talend, Amazon Redshift, Amazon RDS et Amazon EMR. (Le sous-réseau privé de la seconde zone de disponibilité ne contient que les serveurs de tâches).*
    • Une passerelle Internet pour permettre l'accès à Internet. Cette passerelle est utilisée par les hôtes bastions pour envoyer et recevoir du trafic.*
    • Dans les sous-réseaux publics, des passerelles gérées de traduction d'adresses réseau (NAT) pour autoriser l'accès Internet sortant pour les ressources des sous-réseaux privés.*
    • Un hôte bastion Linux dans un ou les deux sous-réseaux publics pour autoriser l'accès Secure Shell (SSH) entrant aux ressources des sous-réseaux privés.* Vous pouvez sélectionner le nombre d’hôtes bastions lors du lancement du Quick Start.*
    • Dans le sous-réseau public de la première zone de disponibilité :
      • Des serveurs publics Talend hébergeant le Talend Administration Center (TAC) et destinés à l’administration des tâches Talend via le navigateur.
      • Une instance de bureau à distance Talend Studio disponible via un client X2Go, destinée aux utilisateurs qui ne souhaitent pas exécuter Talend Studio sur leurs ordinateurs portables.
      • Un référentiel d’artefact Nexus et des serveurs Git pour la gestion de la configuration binaire et source.
      • Un serveur de journal Talend utilisant Amazon Elasticsearch Service (Amazon ES), Logstash et Kibana.
    • Dans le sous-réseau privé de la première zone de disponibilité :
      • Une instance Amazon RDS MySQL DB pour héberger les métadonnées Talend.
      • Un cluster Amazon EMR avec Pig, Hive et Spark s’intégrant étroitement à Talend Big Data Platform et dotant le lac de données de capacités Hadoop.
      • Un cluster Amazon Redshift destiné à être utilisé comme entrepôt de données ou datamart.
    • Dans les sous-réseaux privés, des instances de serveurs de tâches Talend exécutant des tâches Talend planifiées par le Talend Administration Center (TAC), dans un groupe Auto Scaling. Auto Scaling permet le démarrage et l’arrêt automatiques des instances EC2 afin de répondre à la demande sur les serveurs de tâches Talend. Vous pouvez définir le nombre d’instances désiré et maximal pendant le déploiement.
    • Dans les sous-réseaux publics, des instances de serveurs de tâches à distance Talend exécutant des tâches Talend pour les utilisateurs de Talend Studio, dans un groupe Auto Scaling. Vous pouvez exécuter des tâches Talend localement sur Talend Studio ou sur ces serveurs. Le groupe Auto Scaling permet le démarrage et l’arrêt automatiques des instances EC2 pour répondre à la demande sur les serveurs de tâches Talend. Vous pouvez définir le nombre d’instances désiré et maximal pendant le déploiement.
    • Amazon S3 pour ingérer les données du lac de données.

     

    *  Le modèle qui déploie le Quick Start dans un VPC existant ignore les tâches marquées d'un astérisque et vous demande d'indiquer la configuration de votre VPC existant.

  •  Comment déployer
  • Vous pouvez créer votre environnement de lac de données sur AWS en 1 heure environ en suivant quelques étapes simples :

    1. Si vous n'avez pas encore de compte AWS, inscrivez-vous à l'adresse https://aws.amazon.com.
    2. Chargez votre licence Talend Big Data Platform sur un compartiment S3 privé. Vous pouvez vous inscrire sur le site Web de Talend pour obtenir une licence d’essai gratuite de 30 jours.
    3. Lancez le Quick Start. Vous pouvez choisir entre deux options :
    4. Testez le déploiement en ouvrant le Talend Administration Center (TAC) et en vérifiant les serveurs déployés via le Quick Start. Vous pouvez également exécuter les tâches Talend en option pour tester l’intégration de bout en bout des données, en suivant les étapes décrites dans le guide utilisateur fourni par Talend et Cognizant.  

    Le Quick Start comprend des paramètres que vous pouvez personnaliser. Par exemple, vous pouvez configurer votre réseau ou personnaliser les réglages des serveurs TAC, Amazon Redshift, Nexus et Git.

  •  Coût et licences
  • Vous devez assumer les coûts liés aux services AWS utilisés pendant l'exécution du déploiement de référence de ce Quick Start. L'utilisation du Quick Start n'entraîne aucun coût supplémentaire.

    Les modèles AWS CloudFormation pour ce Quick Start incluent des paramètres de configuration que vous pouvez personnaliser. Certains de ces paramètres, tels que le type d'instance, affecteront le coût du déploiement. Pour connaître les estimations des coûts, consultez la page de tarification de chaque service AWS à utiliser.

    Vous devrez fournir votre propre licence Talend Big Data Platform. Remplissez le formulaire d’inscription disponible sur le site Web de Talend pour demander une licence d’essai gratuite de 30 jours. Talend vous enverra une clé de licence unique à utiliser pendant le processus de déploiement de Quick Start.

    Le code pour toutes les tâches Talend incluses dans le Quick Start est fourni sous licence Apache.

  •  Ressources
  • Ce déploiement de référence Quick Start est lié à une solution présentée dans Solution Space, qui comprend une présentation de la solution, des offres de consultation optionnelles conçues par les partenaires du programme de compétence AWS, ainsi qu'un co-investissement dans des projets de faisabilité. Pour en savoir plus sur ces ressources, consultez Solution Space.