Étude de cas San Francisco State University

2014

Le département informatique de la San Francisco State University compte environ 400 étudiants en licence et 100 étudiants en master et doctorat et s'implique aussi bien dans l'enseignement que dans la recherche. Le département travaille actuellement sur un projet de machine learning appelé FEATURE, en collaboration avec le groupe de recherche Helix de l'université de Stanford, et reçoit le soutien du National Institute of Health (institut national de la santé) (subvention LM05652 du NIH).

FEATURE utilise le machine learning pour prédire les sites fonctionnels dans les protéines ou dans d'autres structures moléculaires en trois dimensions (3D). Comme l'explique le professeur Dragutin Petkovic : « L'optimisation massivement parallèle du machine learning implique d'exécuter des algorithmes de machine à vecteurs de support (SVM) sur des milliers d'ensembles de formation, qui sont eux-mêmes composés de centaines de milliers de vecteurs. Les paramètres de SVM optimaux sont découverts en réalisant des recherches sur le réseau mises en parallèle par force brute, avec une validation croisée de k échantillons. Cette optimisation implique la répétition d'opérations semblables plusieurs fois et de manière autonome.” 

démarrer un didacticiel python
kr_quotemark

AWS offre un accès à la demande à des ressources haute performance, ce qui nous permet de nous concentrer sur la science plutôt que sur la maintenance fastidieuse d'une infrastructure de serveur.”

Professeur Dragutin Petkovic
San Francisco State University

Le défi

Comme d'autres projets scientifiques innovants, FEATURE nécessite beaucoup de calculs haute performance, et les chercheurs du projet ont constaté que les besoins en calcul pour explorer des aspects précis de molécules biologiques allait bientôt dépasser les capacités des installations de l'université. Les ressources de calcul sont partagées à la San Francisco State University, et cette demande importante signifiait que les chercheurs devaient adapter la taille et la portée de leurs questions, sous peine de subir d'importants délais en raison de la disponibilité des ressources. De plus, ces contraintes ont mené à de longues attentes pour les résultats et posé une limite arbitraire aux expérimentations que les scientifiques pouvaient effectuer.

Pourquoi Amazon Web Services

Les scientifiques n'avaient besoin de ressources de calcul que périodiquement, et il n'était pas rentable d'acheter des ressources à grande échelle et d'assurer leur maintenance pour une utilisation irrégulière. Alors que l'équipe de recherche évaluait les options dont elle disposait, elle s'est rendu compte que l'accès à la demande aux ressources de calcul proposé par Amazon Web Services (AWS) correspondait à leurs attentes. « Le modèle de paiement progressif d' Amazon Elastic Compute Cloud (Amazon EC2) était l'option la plus appropriée par rapport à l'acquisition d'un grand serveur en interne », explique le professeur Petkovic.

L'équipe de recherche a conçu FEATURE en utilisant les langages C, C++, Perl et Python, ainsi que d'autres outils. Elle a déployé le cluster sur Amazon EC2 avec MIT StarCluster, un outil de mise en service automatisé conçu pour les calculs haute performance scientifiques et techniques. La Protein Databank et les bases de données des structures des protéines ont été chargées sur des volumes Amazon Elastic Block Store (Amazon EBS) pour en faciliter la gestion et la réutilisation. Elles sont accessibles en utilisant une image machine Amazon Linux personnalisée (AMI Amazon Linux).

Les avantages

Afin d'évaluer les performances du projet FEATURE sur AWS, l'équipe a utilisé le profilage logiciel et un comparatif I/O pour mesurer les métriques de performance. « L'équipe disposait d'un petit cluster de 40 nœuds en interne. Nous l'avons comparé au cloud et nous avons conclu qu'Amazon EC2 était bien plus performant en termes de cycles UC par coût, ainsi que pour sa capacité à évoluer sur demande. Les expérimentations qui demandaient autrefois des semaines sont aujourd'hui réalisées en une seule nuit. Cela signifie que nos scientifiques sont toujours actifs et ne perdent plus de temps à attendre des résultats. AWS a grandement réduit nos délais pour les demandes scientifiques », ajoute le professeur Petkovic.

Le professeur Petkovic estime que les coûts de calcul sont 20 fois moins élevés. « Nous estimons qu'un petit cluster de 40 nœuds exécuté en interne coûte 1,71 USD par unité informatique et par heure. En comparaison, Amazon EC2 nous coûte seulement 0,08 USD par unité informatique Elastic (ECU) équivalente et par heure », affirme-t-il. De plus, le professeur Petkovic et son équipe sont capables d'utiliser des alertes de facturation et les autres outils d'optimisation des coûts proposés par AWS pour planifier et gérer les coûts d'utilisation du service.

« AWS offre un accès à la demande à des ressources haute performance, ce qui nous permet de nous concentrer sur la science plutôt que sur la maintenance fastidieuse d'une infrastructure de serveur. AWS nous aide à dépasser les limites de taille et de portée de nos expérimentations de machine learning », conclut-il.

San Francisco State University architecture diagram

À de la San Francisco State University

Le département informatique de la San Francisco State University compte environ 400 étudiants en licence et 100 étudiants en master et doctorat et s'implique aussi bien dans l'enseignement que dans la recherche. Le département travaille actuellement sur un projet de machine learning appelé FEATURE, en collaboration avec le groupe de recherche Helix de l'université de Stanford, et reçoit le soutien du National Institute of Health (institut national de la santé) (subvention LM05652 du NIH).


Services AWS utilisés

Amazon EC2

Capacité de calcul sécurisée et redimensionnable dans le cloud. Lancez vos applications quand vous en avez besoin, sans engagement initial.

En savoir plus >>

Amazon EBS

Amazon Elastic Block Store (EBS) est un service de stockage par bloc hautes performances et simple d'utilisation destiné à être utilisé avec Amazon Elastic Compute Cloud (EC2).

En savoir plus >>

AMI Amazon Linux

L'AMI Linux Amazon est une image Linux prise en charge et mise à jour par Amazon Web Services. Elle est destinée à être utilisée sur Amazon Elastic Compute Cloud (Amazon EC2).

En savoir plus >>


Démarrer

Les entreprises de toutes tailles et de tous les secteurs d’activités transforment chaque jour leurs activités à l’aide d’AWS. Contactez nos spécialistes et entamez votre transition vers le Cloud AWS dès aujourd'hui.