O blog da AWS

BioCloud: Uso de frameworks para Execução Eficiente de Aplicações de Biotecnologia na Cloud AWS

Por Alba Cristina Magalhaes Alves De Melo, Professora Titular e Chefe do Departamento de Ciência da Computação, Universidade de Brasília (UnB);

e Iris Ferreira, arquiteta de soluções, AWS;

e Marcelo Ferreira Baptista, arquiteto de soluções, AWS.

 

A biotecnologia é um campo de pesquisa fundamental para a compreensão da vida em nível molecular. Diversas aplicações, como o desenvolvimento de novos medicamentos e o entendimento de doenças, dependem da capacidade de analisar e comparar sequências genéticas de diferentes organismos. Um exemplo é o alinhamento de sequências par-a-par, importante para identificar regiões de similaridade que podem indicar a relação entre duas sequências biológicas.

Entretanto, essas tarefas de análise de sequências biológicas são desafiadoras do ponto de vista computacional devido à grande volumetria dos dados, pois podem envolver milhares ou milhões de sequências de DNA e proteínas. Executar essas análises de forma eficiente e em tempo hábil requer uma enorme capacidade de processamento. Por isso, os pesquisadores desenvolveram dois frameworks importantes para executar de forma eficiente aplicações de biotecnologia usando a infraestrutura da AWS: o HADS-FT (Highly Available Deadline-Sensitive Fault-Tolerant framework) e o Burst-HADS.

 

Objetivos

Um grupo interdisciplinar de pesquisadores, composto por 32 integrantes de universidades públicas e da Empresa Brasileira de Pesquisa Agropecuária (Embrapa), buscou criar frameworks para executar aplicações de biotecnologia utilizando os recursos disponíveis na AWS. O objetivo era otimizar tanto o desempenho quanto os custos financeiros dessas análises.

 

Metodologia

O HADS-FT é um framework tolerante a falhas projetado para utilizar instâncias spot de GPU na AWS. Ele seleciona dinamicamente as melhores instâncias para a execução, considerando um grupo de opções, e lida com a revogação de instâncias spot, buscando minimizar tanto o tempo de execução quanto os custos. Esse framework foi empregado no cenário que envolveu a comparação de sequências de DNA de humanos e chimpanzés, que resulta na criação de uma matriz de 1,9 petabytes, armazenando cerca de 10 gigabytes em memória.

Já o Burst-HADS foi usado para comparar 22.600 sequências de DNA do SARS-CoV-2 (vírus causador da COVID-19) obtidas entre dezembro de 2019 e março de 2020. O Burst-HADS utiliza tanto instâncias spot quanto instâncias on-demand da AWS, considerado 32 instâncias das famílias “C”, “M” e “R”,  para executar de forma otimizada uma aplicação MASA-OpenMP (ferramenta de comparação de sequências biológicas) composta por mais de 22.000 tarefas, visando minimizar custos e respeitar prazos, mesmo com a ocorrência de interrupções das instâncias spot.

 

Benefícios do uso da Nuvem AWS

Para atingir seus objetivos, os pesquisadores exploraram o uso de instâncias spot do Amazon EC2, que permitem aproveitar a capacidade computacional excedente da nuvem da AWS. Em comparação com as instâncias sob demanda, as instâncias spot oferecem descontos de até 90%. Essa abordagem é especialmente útil para cargas de trabalho flexíveis e tolerantes a interrupções.

Além disso, cada cenário de sequências biológicas requer recursos computacionais diferentes, e utilizando o Amazon EC2, os pesquisadores possuíam diversas opções de instâncias para atender às necessidades de processamento dessas aplicações.

Nesse estudo, os pesquisadores optaram por 2 tipos de instâncias:

1 – Instâncias de computação acelerada: com GPU (Unidade de Processamento Gráfico) como as famílias P3, P4 e G4dn, são projetadas para executar tarefas que exigem processamento paralelo intensivo. Essas instâncias possuem múltiplos núcleos de processamento gráfico (GPUs) que podem executar centenas de threads de execução simultaneamente. Essa arquitetura paralela as torna extremamente eficientes em operações como cálculos matriciais, transformações de vetores e operações de ponto flutuante.

2 – Instâncias otimizadas para computação com CPU como as famílias C5, C6, são projetadas para executar tarefas que envolvem processadores de alta performance. Elas oferecem melhor desempenho para operações de uso geral, como processamento de instruções, fluxos de controle e manipulação de dados.

 

Resultados

O uso do framework HADS-FT resultou em uma redução de custos de 56%, e o usando somente instâncias spot houve um aumento de 21% no tempo de execução em comparação com o uso de instâncias on-demand. Já a execução em uma instância local do laboratório, com uma GPU NVidia GeForce GTX 1080, levou 9 horas e 19 minutos, enquanto a execução com o HADS-FT na AWS durou apenas 2 horas e 38 minutos, ou seja, uma redução de 71,79% no tempo de execução.

Com o uso do Burst-HADS, foi possível obter uma redução de custo de até 50,4% em relação às instâncias on-demand, mesmo com a ocorrência de interrupções. Sem a AWS, essa mesma tarefa levaria cerca de 6 horas em um notebook com 8 núcleos de CPU, enquanto o Burst-HADS concluiu as 22.600 comparações em muito menos tempo e com custos significativamente menores.

 

Conclusão

Essas reduções significativas, tanto no tempo de execução quanto no custo, demonstram o impacto positivo da utilização dos frameworks HADS-FT e Burst-HADS que permitiram uma execução mais eficiente das aplicações de biotecnologia na nuvem AWS, acelerando as descobertas dos pesquisadores.

E como resultados obtiveram:

  • Dois artigos em conferências internacionais (Artigo 1 e Artigo2);
  • Três teses de doutorado e 1 trabalho de Graduação;
  • Um livro publicado em Agosto de 2023;
  • Os resultados das diversas variantes do SARS-CoV-2 foram incluídos na base global de pesquisa sobre COVID-19 na World Health Organization (OMS).
  • O grupo de pesquisa foi contemplado com mais créditos em mais uma chamada em parceria com a AWS e o CNPQ.

Seguem os links dos repositórios com os códigos utilizados na pesquisa:

Alinhamento par-a-par de sequências de DNA ou proteína:

Alinhamento e dobramento de sequências de RNA:

Alinhmanento múltiplo de sequências de proteína:


Sobre os Autores

Alba Cristina Magalhaes Alves De Melo é PhD em Ciência da Computação pelo Institut National Polytechnique de Grenoble (INPG), França, Professora Titular e Chefe do Departamento de Ciência da Computação da Universidade de Brasília (UnB). É também Membro Senior da sociedade internacional IEEE e Conselheira da Sociedade Brasileira de Computação. Durante mais de 30 anos, tem desenvolvido pesquisa em supercomputadores, aceleradores como placas gráficas (GPUs) e hardware reconfigurável (FPGA), computação em nuvem e bioinformática, possuindo mais de 100 artigos científicos internacionais sobre esses temas.

 

Iris Ferreira é arquiteta de soluções na AWS, apoiando clientes em suas jornadas de inovação e transformação digital na nuvem. Em seu tempo livre, gosta de ir para praia, viajar, fazer trilhas e estar sempre em contato com a natureza.

 

Marcelo Ferreira Baptista é Solutions Architect no time de AWS LATAM. Trabalha com soluções de TI há mais de 30 anos, com experiência em vários seguimentos de mercado e diferentes ambientes tecnológicos. Especialista em DevOps, Computing e HPC, hoje atua como Arquiteto de Soluções, apoiando os clientes nos seus desafios, buscando as melhores soluções para as suas necessidades.

 

Revisores

Matheus Oliveira é arquiteto de soluções na AWS, especializado em engajamentos de Inteligência Artificial e Machine Learning. Com formação em Engenharia da Computação auxilia clientes a experimentarem soluções práticas e escaláveis, buscando impacto positivo e transformação por meio de computação em nuvem.

 

Raquel Campos Ferreira estudante de Relações Internacionais. Atualmente trabalha na Amazon Web Services com foco no gerenciamento de projetos.

 

Rubem Paulo Torri Saldanha é formado em Ciência da Computação. Atualmente trabalha na AWS com foco em projetos logo prazo com governos e instituições de pesquisa.