Notre analyse d'lncRNA exige un processus et une intégration de calcul importants. En utilisant AWS, nous pouvons rapidement calculer à travers 1 000 nœuds ou plus, si bien qu'une analyse de séquençage se fait à présent en jours et non plus en semaines. 
Dr Mitch Guttman Professeur adjoint, service de biologie et d'ingénierie biologique

Le laboratoire Guttman pour la biologie des lncRNA du California Institute of Technology (Caltech) est un laboratoire de recherche mené par le Dr Mitch Guttman, scientifique renommé. Il dirige une équipe de chercheurs étudiant une nouvelle classe de gènes appelés lncRNA (large ARN non codant). En utilisant des approches génomiques ainsi que de la biochimie, de la biologie moléculaire, de la biologie cellulaire et de la biologie informatique, le Dr Guttman et son équipe ont étudié la façon dont les lncRNA organisent les molécules de protéines et d'ADN dans la cellule pour contrôler les programmes d'expressions géniques précis.

Lorsque le Dr Guttman est arrivé à Caltech en 2013, il voulait que son équipe de recherche profite d'un cluster HPC élastique et fiable. « Lorsque nous avons étudié l'idée d'un cluster pour notre laboratoire, nous savions qu'il aurait à prendre en charge nos requêtes de calcul fluctuantes », explique le Dr Guttman. « Parfois, nous avons besoin de 1 000 nœuds de calcul et d'autres fois, seulement de 10. Cela dépend de la disponibilité des données et de l'état d'avancement du projet de recherche. De plus, la convergence simultanée de plusieurs projets peut accroître ce nombre de manière significative.  »

Cependant, le laboratoire ne voulait pas construire son propre cluster sur site. « En Californie, les coûts de l'immobilier et de l'électricité font partie des plus élevés du pays. Nous étions donc préoccupés par le coût de création de notre propre cluster ici », explique John Lilley, administrateur principal des services et des systèmes de gestion de l'information à Caltech. « Nous ne voulions pas non plus passer notre temps à gérer et à entretenir le cluster. »

De plus, le Dr Guttman et son équipe ont voulu s'assurer qu'ils pourraient facilement gérer les informations d'identification d'accès du cluster. « Nous voulions être capables d'activer et de désactiver les comptes utilisateur du cluster depuis un seul endroit central, sans nous inquiéter de ne pas avoir les identifiants sur l'une des machines », ajoute John Lilley.

Caltech avait déjà migré toute sa présence sur internet sur une plateforme cloud Amazon Web Services (AWS) et le laboratoire Guttman a également choisi AWS pour prendre en charge son cluster HPC. « Nous cherchions une solution pour utiliser le cloud pour nos ressources de calcul et AWS était le meilleur choix. En effet, il offre l'élasticité, la souplesse et la baisse des coûts que nous recherchions », affirme John Lilley.

Le laboratoire Guttman utilise un cluster HPC qui comprend des ordinateurs connectés à un Amazon Virtual Private Cloud (Amazon VPC), grâce auquel le laboratoire peut mettre en service logiquement une section isolée du cloud AWS pour lancer les ressources AWS dans un réseau virtuel défini. Les chercheurs dans les laboratoires virtuels et réels obtiennent des données de séquençages géniques et les sauvegardent sur le système de fichiers GlusterFS dans Amazon VPC. Ils ont accès aux données en utilisant une station de travail Linux basée sur AWS et partagée, qui est authentifiée grâce à Simple AD, un annuaire compatible avec Active Directory d'AWS Directory Service.

Le laboratoire utilise également le service géré fournissant des espaces de travail Amazon WorkSpaces pour les utilisateurs autres que Linux. « Nous voulions donner à nos utilisateurs Windows la possibilité de se connecter à Amazon WorkSpaces depuis les PC du laboratoire virtuel et d'avoir le même niveau d'accès aux données que les utilisateurs Linux », explique John Lilley. « Nous pouvons utiliser Simple AD pour gérer facilement cet accès. » Le laboratoire utilise des instances Amazon Elastic Compute Cloud (Amazon EC2) pour ses nœuds GlusterFS et un framework CfnCluster pour déployer et entretenir son cluster HPC sur AWS. En utilisant ce cluster, l'équipe de recherche développe des outils de calcul et des méthodes de statistique qui analysent les données expérimentales.

Avec AWS, le laboratoire Guttman a maintenant l'élasticité nécessaire pour gérer ses requêtes de calcul fluctuantes. « Nous n'avions pas à concevoir notre propre cluster physique pour gérer notre utilisation de calcul cyclique, car AWS évolue automatiquement pour nous », affirme John Lilley. Le Dr Guttman ajoute : « A présent, nous n'avons pas besoin de passer du temps à hiérarchiser les projets en avance et nous savons que nous avons assez de puissance de calcul sans avoir à changer le matériel régulièrement. Nous sommes également capables de développer et de tester de nouvelles méthodes de recherche de façon active. AWS est assurément un outil indispensable pour notre laboratoire. »

Le laboratoire a également l'agilité nécessaire pour ajouter facilement plus de ressources de calcul lorsque cela s'avère nécessaire. « Récemment, nous avions besoin d'étendre notre système GlusterFS, de 5 To à 24 To. Nous avons été capables de le faire sans acheter de nouveau matériel », se réjouit John Lilley. «En l'espace d'une heure, nous avons simplement ajouté des nœuds Amazon EC2 et augmenté le stockage cloud. Auparavant, le processus imposant les phases de discussion du prix d'achat du matériel puis les étapes d''approvisionnement, d'installation et de tests aurait dû se répartir sur plusieurs semaines. »

De plus, les chercheurs du laboratoire peuvent analyser les données lncRNA plus vite grâce au cloud AWS. « Notre analyse d'lncRNA exige un processus et une intégration de calcul importants », explique le Dr Guttman. « En utilisant AWS, nous pouvons rapidement calculer à travers 1 000 nœuds ou plus, si bien qu'une analyse de séquençage de génome s'effectue maintenant en jours et non plus en semaines. Nous n'aurions pas pu le faire avec la capacité limitée que nous avions auparavant. »

Le laboratoire a également été capable de réduire les coûts en utilisant des instances Spot Amazon EC2 pour optimiser les capacités de calcul Amazon EC2 non utilisées. « Lorsque vous prenez en compte les capacités de calcul élastiques que nous obtenons en utilisant AWS, ainsi que la rentabilité des instances Spot EC2, ce cluster est bien plus économique que ce que nous aurions pu concevoir nous-mêmes », déclare le Dr Guttman.

En utilisant Amazon WorkSpaces et Simple AD, le laboratoire Guttman peut facilement gérer les accès à son cluster HPC. « Lorsque nous avons commencé avec le cluster, ce n'était pas une mince affaire d'obtenir les informations d'identification synchronisées avec Linux pour gérer les hôtes et le CfnCluster », explique John Lilley. « Comme Simple AD est intégré au cluster, nous allons gagner beaucoup de temps, car nous pourrons activer et désactiver les comptes utilisateur depuis un emplacement centralisé. Simple AD nous permet de garder une certaine cohérence dans tout l'environnement. »

À terme, Caltech prévoit d'étendre AWS à d'autres laboratoires et départements. « Nous récoltons les fruits du travail réalisé sur AWS et nous permettons à d'autres chercheurs génétiques à travers le campus d'en bénéficier », déclare John Lilley. « Nous voyons cette façon de faire comme un modèle pour l'utilisation approfondie de HPC à Caltech. »

Pour en savoir plus sur la génomique dans le cloud, consultez la page consacrée à AWS Genomics.

Pour en savoir plus sur la façon dont AWS vous aide à gérer votre cluster HPC, consultez la page consacrée au Calcul Haute Performance.