O blog da AWS

Como a UFMG acelerou descobertas sobre Mosquitos Transmissores de Doenças usando AWS

Por João Trindade Marques, doutor em Ciências Biológicas/Microbiologia pela UFMG; João Paulo P. de Almeida, doutor em Bioinformática pela UFMG; Hebert Costa, engenheiro de sistemas pela UFMG; Eric Aguiar, Doutor em Bioinformática (UFMG); Iris Ferreira, Arquiteta de Soluções na AWS e Hellen Rosa,  Arquiteta de Soluções na AWS.

A compreensão dos fatores que contribuem para a capacidade dos mosquitos Aedes de resistir à infecção e transmitir os arbovírus, como o vírus da dengue, é crucial para o desenho de estratégias de controle das arboviroses. Um grupo liderado pelo professor João Trindade Marques, do Instituto de Ciências Biológicas da UFMG, conduziu um estudo visando investigar essa chamada “competência vetorial” dos mosquitos.

A “competência vetorial” reflete a eficiência com a qual um mosquito pode atuar como vetor de transmissão de determinados vírus, o que é um aspecto fundamental para a vigilância e compreensão da epidemiologia de doenças virais transmitidas por mosquitos, como dengue, Zika e chikungunya. Sem essa vigilância, não seria possível desenvolver vacinas e medidas de prevenção adequadas.

Entretanto, os pesquisadores enfrentaram desafios na análise de sequências genéticas geradas em larga escala para vigilância genômica de vírus circulantes nesses mosquitos. Esses desafios envolvem diferenciar sequências com características virais integradas no genoma do hospedeiro e classificar sequências altamente divergentes. Além disso, precisam de uma abordagem de mineração de dados em larga escala, necessitando de uma grande infraestrutura de máquinas para estruturar os dados e associar atributos quantitativos as sequências virais.

Uso da AWS para impulsionar a pesquisa

Embora já possuíssem servidores locais, devido ao grande volume de dados do projeto que trabalhou com mais de mil mosquitos coletados ao redor do planeta, realizar essa análise em seu próprio ambiente levaria, em média, de 3 a 4 meses, o que inviabilizaria grandes estudos. Nesse tipo de estudo, a velocidade é crucial, pois os resultados arriscam se tornarem desatualizados rapidamente.

Para viabilizar essa pesquisa de forma ágil, a equipe decidiu utilizar instâncias do Amazon EC2 para processamento paralelo dos grandes volumes de dados metagenômicos. Dessa maneira, o que levaria 3 a 4 meses no ambiente local foi processado em cerca de 2 semanas, aproveitando o poder computacional escalável da AWS.

Especificamente, eles aproveitaram a velocidade e diversidade de instâncias do Amazon EC2, utilizando as famílias C (otimizadas para computação) e M (uso geral), juntamente com imagens pré-configuradas do Amazon Machine Image (AMI), que já incluíam a instalação do RStudio. O RStudio é uma interface de desenvolvimento integrada (IDE) que facilita o trabalho com análise de dados.

Ao utilizar essa imagem pré-configurada, os pesquisadores puderam iniciar suas análises de forma mais rápida e consistente, sem precisar construir todo o ambiente computacional do zero. Isso permitiu que eles se concentrassem diretamente no processamento e interpretação dos dados, otimizando seu tempo e recursos.

As instâncias do tipo M são projetadas para uso geral, fornecendo um equilíbrio entre recursos de computação, memória e rede, sendo ideais para aplicativos que utilizam esses recursos de forma equilibrada. Já as instâncias do tipo C são otimizadas para computação intensiva, contando com processadores de alta performance, sendo adequadas para cargas de trabalho vinculadas a processamento em lote, computação de alto desempenho (HPC), modelagem científica, inferência de Machine Learning e outras aplicações com uso intensivo de computação.

Com grandes volumes de dados sendo processados, com uma média de 200 GB de transferência diária e um total de 800 GB em trânsito, foi essencial o uso do Amazon S3 para armazenamento seguro e escalável dos enormes conjuntos de dados genômicos. O S3, serviço de armazenamento de objetos da AWS, forneceu capacidade de armazenamento ilimitada e o desempenho necessário para suportar o fluxo constante de dados provenientes das análises de sequências virais.

Para complementar, a equipe também utilizou o Amazon SageMaker, um serviço totalmente gerenciado que fornece uma ampla gama de ferramentas para proporcionar Machine Learning (ML) de alta performance e baixo custo, adaptável a diversos casos de uso. O SageMaker oferece acesso a centenas de modelos pré-treinados, incluindo modelos disponíveis publicamente, que podem ser implantados com facilidade. Isso permitiu que a equipe testasse e validasse modelos de deep learning já disponíveis, acelerando o processo de análise dos dados.

Um dos algoritmos utilizados pelos pesquisadores para distinção de sequências de vírus circulantes de sequências virais inseridas no genoma de mosquitos foi o Random Forest que é um algoritmo de aprendizado de máquina que combina várias “árvores de decisão” diferentes. Isso significa que ele analisa os dados de diversas formas e então combina esses resultados para chegar a uma conclusão mais precisa, no caso do projeto, sequências virais com alta confiabilidade de que pertencem a vírus circulantes em mosquitos.

Conclusão

Como resultado, os pesquisadores coletaram dados de 10 espécies de mosquitos em 4 continentes, o que permitiu a identificação de 29 vírus conhecidos e a descoberta de 17 novos vírus nunca registrados. Além disso, foram descobertas cerca de 500 sequências altamente divergentes com potencial origem viral inéditas no mundo.

A escala dessa análise e das descobertas só foi possível graças à escalabilidade e ao poder computacional oferecidos pela infraestrutura da AWS. Essa combinação de técnicas de aprendizado de máquina com a computação em nuvem foi essencial para viabilizar a análise em larga escala das sequências virais neste estudo de vigilância virológica.

Os resultados obtidos se destacam pela identificação de 17 novos vírus em mosquitos, contribuindo significativamente para o monitoramento e preparação contra futuras ameaças de doenças transmitidas por esses vetores. À medida que estudos futuros incorporarem um volume ainda maior de dados, como mais de 1000 bibliotecas públicas de sequenciamento de RNA de mosquitos e 2 terabyte de informações genômicas, é esperado que novas descobertas possam ter impactos significativos na preparação e enfrentamento de potenciais pandemias, ampliando nosso conhecimento e capacidade de resposta a ameaças virais emergentes.

Confira os resultados dessa colaboração lendo os papers publicados pelos pesquisadores:

Sobre os Autores

João Trindade Marques possui graduação, mestrado e doutorado em Ciências Biológicas/Microbiologia pela UFMG, com foco em virologia. Pós-doutorados na Cleveland Clinic e Northwestern University, atuando em áreas de interação vírus-hospedeiro.
João Paulo P. de Almeida é técnico em Informática, Biólogo, mestre em Bioquímica e doutor em Bioinformática pela UFMG. Realiza pós-doutorado na UFMG/CIIA, desenvolvendo ferramentas bioinformáticas para detecção de vírus.

 

Hebert Costa é engenheiro de sistemas pela UFMG, com projetos em eletrônica, bioinformática, processamento de linguagem e animação 3D. Realizou intercâmbio na República Tcheca em eletrônica embarcada e redes automotivas.

 

Eric Aguiar graduado em Computação, Mestre e Doutor em Bioinformática (UFMG), coordena o Laboratório de Bioinformática de Vírus na UESC, utilizando sequenciamento para identificar vírus e interações com hospedeiros.
 Iris Ferreira é arquiteta de soluções na AWS, apoiando clientes em suas jornadas de inovação e transformação digital na nuvem. Formada pela UFRJ, tem interesse especial por temas como Machine Learning e analytics.
Hellen Rosa é Arquiteta de Soluções na AWS apoiando diversos clientes na jornada de cloud.

Sobre os Revisores

Matheus Oliveira é arquiteto de soluções AWS especializado em IA e Machine Learning. Com formação em Engenharia da Computação, auxilia clientes a implementar soluções em nuvem escaláveis e impactantes.
Marcelo Baptista é Arquiteto de Soluções na AWS LATAM. Mais de 30 anos de experiência em TI. Especialista em DevOps, Computing e HPC. Arquiteto de Soluções, auxiliando clientes com desafios tecnológicos.
Raquel Ferreira estudante de Relações Internacionais. Atualmente trabalha na Amazon Web Services com foco no gerenciamento de projetos.
Rubem Saldanha é formado em Ciência da Computação. Atualmente trabalha na AWS com foco em projetos logo prazo com governos e instituições de pesquisa.