Étude de cas Caltech Guttman Lab
2016
Le laboratoire Guttman Lab pour la biologie des lncRNA du California Institute of Technology (Caltech) est un laboratoire de recherche dirigé par le Dr Mitch Guttman, scientifique renommé. Il est à la tête d'une équipe de chercheurs étudiant une nouvelle classe de gènes appelés lncRNA (large ARN non codant). En utilisant des approches génomiques ainsi que de la biochimie, de la biologie moléculaire, de la biologie cellulaire et de la biologie informatique, le Dr Guttman et son équipe ont étudié la façon dont les lncRNA organisent les molécules de protéines et d'ADN dans la cellule pour contrôler les programmes d'expressions géniques précis.
Notre analyse d'lncRNA exige un processus et une intégration de calcul importants. En utilisant AWS, nous pouvons rapidement calculer à travers 1 000 nœuds ou plus, si bien qu'une analyse de séquençage se fait à présent en jours et non plus en semaines.
Dr Mitch Guttman
Professeur adjoint, service de biologie et d'ingénierie biologique de Caltech Guttman Lab
Le défi
Lorsque le Dr Guttman est arrivé à Caltech en 2013, il voulait que son équipe de recherche profite d'un cluster HPC (High-Performance Computing) élastique et fiable. « Lorsque nous avons étudié l'idée d'un cluster pour notre laboratoire, nous savions qu'il aurait à prendre en charge nos requêtes de calcul fluctuantes », explique le Dr Guttman. « Parfois, nous avons besoin de 1 000 nœuds de calcul et d'autres fois, seulement de 10. Cela dépend de la disponibilité des données et de l'état d'avancement du projet de recherche. De plus, la convergence simultanée de plusieurs projets peut accroître ce nombre de manière significative ».
Cependant, le laboratoire ne voulait pas construire son propre cluster sur site. « En Californie, les coûts de l'immobilier et de l'électricité sont parmi les plus élevés du pays. Nous étions donc préoccupés par le coût de création de notre propre cluster ici », explique John Lilley, administrateur principal des services et des systèmes de gestion de l'information à Caltech. « Nous ne voulions pas non plus passer notre temps à gérer et à entretenir le cluster ».
De plus, le Dr Guttman et son équipe ont voulu s'assurer qu'ils pourraient facilement gérer les informations d'identification d'accès du cluster. « Nous voulions être capables d'activer et de désactiver les comptes utilisateur du cluster depuis un seul endroit central, sans nous inquiéter de ne pas avoir les identifiants sur l'une des machines », ajoute John Lilley.
Pourquoi Amazon Web Services
Caltech avait déjà migré toute sa présence sur internet sur une plateforme cloud Amazon Web Services (AWS) et le laboratoire Guttman a également choisi AWS pour prendre en charge son cluster HPC. « Nous cherchions une solution pour utiliser le cloud pour nos ressources de calcul et AWS était le meilleur choix. En effet, il offre l'élasticité, la souplesse et la baisse des coûts que nous recherchions », affirme John Lilley.
Le laboratoire Guttman utilise un cluster HPC qui comprend des ordinateurs connectés à un Amazon Virtual Private Cloud (Amazon VPC), grâce auquel le laboratoire peut mettre en service logiquement une section isolée du cloud AWS pour lancer les ressources AWS dans un réseau virtuel défini. Les chercheurs dans les laboratoires virtuels et réels obtiennent des données de séquençages géniques et les sauvegardent sur le système de fichiers GlusterFS dans Amazon VPC. Ils ont accès aux données en utilisant une station de travail Linux basée sur AWS et partagée, qui est authentifiée grâce à Simple AD, un annuaire compatible avec Active Directory d'AWS Directory Service.
Le laboratoire utilise également le service géré de calcul Amazon WorkSpaces pour les utilisateurs autres que Linux. « Nous voulions donner à nos utilisateurs Windows la possibilité de se connecter à Amazon WorkSpaces depuis les PC du laboratoire virtuel et d'avoir le même niveau d'accès aux données que les utilisateurs Linux », explique John Lilley. « Nous pouvons utiliser Simple AD pour gérer facilement cet accès ». Le laboratoire utilise des instances Amazon Elastic Compute Cloud (Amazon EC2) pour ses nœuds GlusterFS et un cadre CfnCluster pour déployer et entretenir son cluster HPC sur AWS. En utilisant ce cluster, l'équipe de recherche développe des outils de calcul et des méthodes de statistique qui analysent les données expérimentales.
Les avantages
Avec AWS, le laboratoire Guttman a maintenant l'élasticité nécessaire pour gérer ses requêtes de calcul fluctuantes. « Nous n'avions pas à concevoir notre propre cluster physique pour gérer notre utilisation de calcul cyclique, car AWS évolue automatiquement », affirme John Lilley. Le Dr Guttman ajoute : « Désormais, nous n'avons pas besoin de passer du temps à hiérarchiser les projets en avance et nous savons que nous avons assez de puissance de calcul sans avoir à changer le matériel régulièrement. Nous sommes également capables de développer et de tester de nouvelles méthodes de recherche de façon active. AWS est assurément un outil indispensable pour notre laboratoire ».
Le laboratoire a également l'agilité nécessaire pour ajouter facilement plus de ressources de calcul lorsque cela s'avère nécessaire. « Récemment, nous avions besoin d'étendre notre système GlusterFS, de 5 To à 24 To. Nous avons été capables de le faire sans acheter de nouveau matériel », se réjouit John Lilley. « En l'espace d'une heure, nous avons simplement ajouté des nœuds Amazon EC2 et augmenté le stockage cloud. Auparavant, il aurait fallu des semaines pour le faire, car il y aurait eu des discussions sur les prix d'achat du matériel, puis nous aurions dû procéder à l'approvisionnement, à l'installation et aux tests ».
De plus, les chercheurs du laboratoire peuvent analyser les données lncRNA plus vite grâce au Cloud AWS. « Notre analyse d'lncRNA exige un processus et une intégration de calcul importants », explique le Dr Guttman. « En utilisant AWS, nous pouvons rapidement calculer sur 1 000 nœuds ou plus, si bien qu'une analyse de séquençage de génome s'effectue maintenant en jours et non plus en semaines. Nous n'aurions pas pu le faire avec la capacité limitée que nous avions auparavant ».
Le laboratoire a également été capable de réduire les coûts en utilisant des instances Spot Amazon EC2 qui offrent une capacité de calcul Amazon EC2 non utilisée, pour un prix jusqu'à 90 % inférieur à celui des instances à la demande. « Lorsque vous prenez en compte les capacités de calcul élastiques que nous obtenons en utilisant AWS, ainsi que la rentabilité des instances Spot EC2, ce cluster est bien plus économique que ce que nous aurions pu concevoir nous-mêmes », déclare le Dr Guttman.
En utilisant Amazon WorkSpaces et Simple AD, le laboratoire Guttman peut facilement gérer les accès à son cluster HPC. « Lorsque nous avons commencé avec le cluster, ce n'était pas une mince affaire d'obtenir les informations d'identification synchronisées avec Linux pour gérer les hôtes et le CfnCluster », explique John Lilley. « Comme Simple AD est intégré au cluster, nous gagnons beaucoup de temps, car nous pouvons activer et désactiver les comptes utilisateur depuis un emplacement centralisé. Simple AD nous permet de garder une certaine cohérence dans tout l'environnement ».
À terme, Caltech prévoit d'étendre AWS à d'autres laboratoires et services. « Nous récoltons les fruits du travail réalisé sur AWS et nous permettons à d'autres chercheurs génétiques du campus d'en bénéficier », déclare John Lilley. « Nous voyons cette façon de faire comme un modèle pour l'utilisation approfondie de HPC à Caltech ».
À propos du laboratoire Caltech Guttman
Le laboratoire Guttman Lab pour la biologie des lncRNA du California Institute of Technology (Caltech) est un laboratoire de recherche dirigé par le Dr Mitch Guttman, scientifique renommé.
Services AWS utilisés
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) est un service Web qui fournit une capacité de calcul sécurisée et redimensionnable dans le cloud. Destiné aux développeurs, il est conçu pour faciliter l'accès aux ressources de cloud computing à l'échelle du Web.
Amazon VPC
Amazon Virtual Private Cloud (Amazon VPC) vous permet de mettre en service une section du cloud AWS qui a été isolée de manière logique et dans laquelle vous pouvez lancer des ressources AWS dans un réseau virtuel que vous définissez.
En savoir plus »
Amazon WorkSpaces
Amazon WorkSpaces est une solution DaaS (Desktop-as-a-Service) gérée et sécurisée.
En savoir plus »
Démarrer
Les entreprises de toutes tailles et de tous les secteurs d’activités transforment chaque jour leurs activités à l’aide d’AWS. Contactez nos spécialistes et entamez votre transition vers le Cloud AWS dès aujourd'hui.