AWS Public Sector Blog

How the University of British Columbia uses the cloud to reduce sunflower genomic processing time and research costs with a data lake

sunflowers in a field

Click here for the French version.

The botany department at the University of British Columbia (UBC) and the UBC Data Science Institute are working together to research the evolution and genetic makeup of sunflowers – a critical crop in addressing global food security.

UBC professor Dr. Loren Rieseberg says, “Sunflowers are challenging plants to work with, in part because their genome is large (3.6 billion base pairs), exceeding that of humans by 300 million base pairs, but also because the genomes of different sunflower lines differ in gene content and genome structure. A gene present in one line is frequently missing in another or found in a different place in the genome. Despite its challenging genome, sunflowers are important as a food security crop due to their hardiness and ability to survive extreme heat, which is expected to become more frequent with the climate crisis. We want to provide genomic resources, new seeds, and research that will help make sunflowers more environmentally resilient. We use genomic tools to find the particular alleles that can be helpful in making sunflower cultivars well-suited for particular regions of the world.”

Genomic testing requires large amounts of storage and processing power, which is why the UBC team turned to the cloud.

Moving from high performance computing (HPC) to the Amazon Web Services (AWS) Cloud

UBC migrated its sunflower genomics research pipeline from a 2048 core SGI mainframe to an Amazon Simple Storage Service (Amazon S3)-based data lake. Dr. Jean-Sébastien Légaré, a postdoctoral fellow at the UBC Data Science Institute, is working on building a framework for experimental reproducibility. Prior to migrating to AWS, Dr. Légaré says that the team faced functional challenges while conducting research. “We have analyses we need to run, and they require intricate orchestration of the jobs’ replication and distribution of the processes across many servers. We had significant pain points in getting our jobs to run reliably and timely.”

The team was faced with long run times, which stalled analysis and writing of research papers. “Around 12 percent of the jobs were timing out and failing for reasons out of our control. We would have to restart, and we couldn’t really recover from those. The last time we ran the pipeline, we had upgraded the software, and it took about 40 core years to run. We submitted jobs – sometimes 500 at a time – and it could be two weeks before anything even started to run. It was very time consuming. People waited for the analyses downstream and we were unable to provide reliable estimates on time and cost to run the pipeline,” says Dr. Légaré.

Using Amazon S3, AWS Batch, Amazon Elastic Container Registry, Amazon Elastic Container Service, Amazon FSx, AWS Lambda, as well as Amazon CloudWatch and Amazon EventBridge, for monitoring and usage reporting, Dr. Légaré says working toward building a framework for reproducibility of scientific experiments is now a simpler task.

“Before, working with files was difficult, but everything in AWS has a URL and an associated ID. It’s easier for me to manipulate the data. Not having to worry about where the files are and having it all in one data lake is helpful. The AWS Cloud has changed the way we can run these experiments. Everything appears to be logically in the same location, ready to access.” Dr. Légaré says there are now over 100 terabytes of data in the lab’s data lake.

With AWS, the team improved insight into their own research. “We can specify what data we want, and predict how long it will take to compute, based on similar datasets. A major benefit is that we can translate these resource requirements into a precise cost equation. We can adjust our parameters and redo our query to see how long a new job will take. Accuracy in prediction can only be achieved with a reliable compute platform – and one that can handle jobs of any size,” says Dr. Légaré. “Trying out new genomics tools and filtering parameters used to be a constant ordeal that would require weeks of turnaround time. Now we can spin up hundreds of jobs on-demand within minutes.”

With a reduction in time to science and cost, the UBC researchers will continue their inquiry into how sunflowers’ alleles will work in different cultivated backgrounds around the world.

Learn more about healthcare and life sciences on AWS and genomics in the cloud on AWS. Read more healthcare stories on the AWS Public Sector Blog.

 


 

Comment l’Université de Colombie-Britannique utilise le nuage pour accélérer le temps de traitement génomique du tournesol et réduire les coûts de recherche grâce à un lac de données

field of sunflowers

Le département de botanique de l’Université de Colombie-Britannique (UBC) et l’Institut de science des données de l’université travaillent ensemble pour étudier l’évolution et la composition génétique du tournesol, une culture essentielle pour la sécurité alimentaire mondiale.

À en croire Loren Rieseberg, professeur à l’UBC, « Le tournesol est une plante avec laquelle il est difficile de travailler, en partie parce que son génome est grand (3,6 milliards de paires de bases), soit 300 millions de plus que chez les êtres humains, mais aussi parce que les génomes des différentes lignées de tournesol diffèrent en termes de contenu génétique et de structure du génome. Il est fréquent qu’un gène présent dans une lignée soit absent dans une autre ou se trouve à un autre endroit du génome. Malgré son génome déroutant, le tournesol est une culture importante pour la sécurité alimentaire en raison de sa rusticité et de sa capacité à survivre aux chaleurs extrêmes, qui devraient devenir plus fréquentes avec la crise climatique. Nous voulons fournir des ressources génomiques, de nouvelles semences et des recherches qui contribueront à rendre les tournesols plus résistants à l’environnement. Nous utilisons des outils génomiques pour trouver les allèles particuliers qui peuvent être utiles pour rendre les cultivars de tournesol bien adaptés à certaines régions du monde ».

Les tests génomiques nécessitent une grande quantité de stockage et une puissance de traitement élevée; c’est pourquoi l’équipe de l’université s’est tournée vers le nuage.

Du calcul haute performance (HPC) au Nuage Amazon Web Services (AWS)

L’université a procédé à la migration de son pipeline de recherche en génomique du tournesol d’un ordinateur central SGI de 2048 vers un lac de données Amazon Simple Storage Service (Amazon S3). Le docteur Jean-Sébastien Légaré, boursier postdoctoral au Data Science Institute de l’Université, travaille à l’élaboration d’un cadre pour la reproductibilité expérimentale. Il nous apprend qu’avant la migration vers AWS, l’équipe était confrontée à des défis fonctionnels lors de ses recherches. « Nous avons des analyses à effectuer, et elles nécessitent une orchestration complexe de la réplication des tâches et de la distribution des processus sur de nombreux serveurs. Nous rencontrions un nombre significatif de problèmes pour exécuter nos tâches de manière fiable et en temps opportun ».

L’équipe faisait face à de longs délais, ce qui a retardé l’analyse et la rédaction des documents de recherche. « Environ 12 % des tâches expiraient et échouaient pour des raisons indépendantes de notre volonté. Nous devions redémarrer, et nous ne pouvions pas vraiment reprendre les opérations. La dernière fois que nous avons exécuté le pipeline, nous avons mis à jour le logiciel, et il a fallu environ 40 cœurs année pour l’exécuter. Nous soumettions les tâches, parfois 500 à la fois, et il pouvait s’écouler deux semaines avant même qu’une tâche ne soit lancée. C’était très chronophage. Les gens attendaient les analyses en aval et nous n’étions pas en mesure de fournir des estimations fiables sur les délais et les coûts de fonctionnement du pipeline », explique le docteur Légaré.

Il est désormais plus simple, grâce à Amazon S3, AWS Batch, Amazon Elastic Container Registry, Amazon Elastic Container Service, Amazon FSx, AWS Lambda, ainsi qu’à Amazon CloudWatch et Amazon EventBridge pour la surveillance et les rapports d’usage, de travailler à l’élaboration d’un cadre pour la reproductibilité des expériences scientifiques, selon le Dr Légaré.

« Avant, travailler avec des fichiers était difficile, mais dans AWS, tout a une adresse URL et un ID associé. Je peux manipuler les données plus facilement. Ne pas avoir à se soucier de l’emplacement des fichiers et les avoir tous dans un lac de données est très pratique. Le Nuage AWS a changé la façon dont nous pouvons mener ces expériences. Tout se trouve logiquement dans le même emplacement au même endroit, accessible immédiatement ». Selon le docteur Légaré, le lac de données du laboratoire contient plus de 100 téraoctets de données à ce jour.

Grâce à AWS, l’équipe a pu mieux comprendre ses propres recherches. « Nous pouvons spécifier les données que nous voulons, et prédire le temps qu’il faudra pour les calculer, sur la base d’ensembles de données similaires. Un avantage majeur est que nous pouvons traduire ces besoins en ressources en une équation de coût précise. Nous pouvons ajuster nos paramètres et exécuter de nouveau notre requête pour déterminer la durée d’une nouvelle tâche. La précision des prévisions ne peut être obtenue qu’avec une plateforme de calcul fiable, capable de traiter des tâches de toute taille », affirme-t-il. « L’essai de nouveaux outils de génomique et de nouveaux paramètres de filtrage était autrefois une épreuve constante qui nécessitait des semaines d’exécution. Désormais, nous pouvons lancer des centaines de tâches à la demande en quelques minutes ».

En pouvant accéder plus rapidement à ce qui est la science et en réduisant les coûts, les chercheurs de l’université poursuivront leurs travaux sur la façon dont les allèles du tournesol fonctionneront dans différents milieux de culture à travers le monde.

Découvrez-en plus sur la santé et les sciences de la vie sur AWS et la génomique dans le Nuage AWS. Consultez d’autres témoignages du secteur de la santé sur le blogue AWS pour le secteur public.