O blog da AWS

Computação em nuvem impulsiona pesquisas em bioinformática e genômica na Amazônia

Por Dra. Fernanda de Pinho Werneck, Pesquisadora Titular no Instituto Nacional de Pesquisas da Amazônia (INPA);

e Dr. Josué Anderson Rêgo Azevedo, Pós-doutor pelo Instituto Nacional de Pesquisas da Amazônia – INPA;

e Dr. Érik Henrique de Lacerda Choueri, Doutor em Genética, Conservação e Biologia Evolutiva (INPA);

e Msc. Raissa Rainha, Mestre em Ecologia no Instituto Nacional de Pesquisas da Amazônia (INPA);

e Msc. André Yves Barboza Martins, Mestre em Ecologia no Instituto Nacional de Pesquisas da Amazônia (INPA);

e Marcelo Ferreira Baptista, Arquiteto de soluções, AWS.

A biodiversidade da floresta amazônica é imensa e ainda pouco compreendida pela ciência. Entender como as espécies e populações naturais da região estão adaptadas e reagem às mudanças climáticas é fundamental para guiar estratégias de conservação mais efetivas. Avanços recentes em sequenciamento genômico e bioinformática estão revelando novas perspectivas sobre a evolução e adaptação da vida na maior floresta tropical do mundo.

Para tirar proveito dessas tecnologias, pesquisadores do Instituto Nacional de Pesquisas da Amazônia (INPA) estão utilizando recursos de computação em nuvem providos pela Amazon Web Services (AWS) em parceria com o CNPq. Essa colaboração permite que os cientistas lidem com os desafios computacionais das análises genômicas e obtenham insights valiosos sobre a biodiversidade amazônica.

A Pesquisa

O objetivo principal da pesquisa realizada no INPA é inferir respostas de anfíbios e répteis amazônicos a cenários de mudanças climáticas globais e o impacto em seus ciclos de vida, distribuições, riscos de extinção e chances de sobrevivência em longo prazo.

A pesquisa envolveu o processamento de dados genômicos brutos de quatro grupos de espécies, totalizando mais de 400 indivíduos. Estes dados genômicos foram essenciais para realizar análises complexas, como identificar regiões genômicas sob influência climática e modelar potenciais de resgate evolutivo entre populações. Além disso, foram utilizados dados de distribuição geográfica de várias espécies de répteis e mamíferos para a seleção de modelos SAR (Spatial Autoregressive Models) em relação a variáveis ambientais ao longo da Amazônia.

A necessidade computacional estava relacionada com o processamento e análise de grandes volumes de dados genômicos e ecológicos de espécies de lagartos e anuros da Amazônia para inferir respostas a cenários de mudanças climáticas, incluindo alterações de distribuições geográficas, riscos de extinção local, e potenciais adaptativos. A complexidade dessas análises, especialmente em termos de assembleia genômica e modelagem espacial, exigiu grande capacidade de processamento e memória RAM (> 16 GB), e a habilidade de executar múltiplas análises paralelas (> 20 vCPUs).

Foram utilizadas instâncias Amazon EC2 da AWS, especificamente do tipo M5a configuradas sistema operacional Linux. Estas instâncias foram escolhidas por oferecerem diferentes capacidades de vCPU e memória, permitindo ajustar os recursos conforme as necessidades específicas de cada análise e pela existência de tutoriais e AMIs de bioinformática compatíveis. Além disso, as instâncias foram equipadas com os principais softwares de bioinformática, R, e Python, e as AMIs foram compartilhadas entre os pesquisadores para facilitar e uniformizar o trabalho.

Figura 1: Como os serviços de computação em nuvem da AWS foram integrados ao processo de investigação, consolidação, análise de dados e geração de modelos.

Figura 2: Arquitetura usada para a aplicação da metodologia.

Figura 3: Automação e paralelização das análises usando AMIs.

Benefícios do uso da Nuvem AWS

As ferramentas de computação em nuvem da AWS foram essenciais para viabilizar as análises de grandes conjuntos de dados genômicos e ecológicos de anfíbios e répteis da megadiversa Amazônia. O acesso facilitado a recursos computacionais na nuvem permitiu que os pesquisadores acelerassem seus fluxos de trabalho e obtivessem resultados de forma muito mais ágil.

A AWS permitiu uma redução significativa no tempo necessário para realizar análises genômicas complexas. Análises que levariam pelo menos uma semana em computadores pessoais (ex., uma única rodada, teste de assembleia genômica) foram realizadas em dias ou até horas na AWS, com a possibilidade de reanálise quase ilimitada graças à escalabilidade e ao poder de processamento da nuvem.

Resultados Obtidos

  • Análise de dados genômicos brutos de mais de 400 indivíduos de espécies amazônicas.
  • Modelos de nicho ecológico para prever respostas da biodiversidade às mudanças climáticas.
  • Identificação de dezenas de regiões genômicas sob influência climática.
  • Indicação de potencial de resgate evolutivo dependente da conservação da floresta.
  • Riscos de extinção e limitação de respostas adaptativas devido ao desmatamento.

Além dos dados e resultados publicados em teses e dissertações, os artigos resultantes estão disponibilizados publicamente no site WerneckLab e em repositórios institucionais, como o do INPA.

Conclusão

A parceria entre INPA e AWS por meio do CNPq foi essencial para impulsionar pesquisas inovadoras em genômica e bioinformática na Amazônia. Os recursos de computação em nuvem eliminaram gargalos computacionais e aceleraram o processo científico, levando a novos conhecimentos sobre biodiversidade e adaptação climática na maior floresta tropical do planeta. Esse caso de sucesso demonstra o potencial transformador da computação em nuvem para a pesquisa científica brasileira.


Sobre os autores

Dra. Fernanda de Pinho Werneck é Pesquisadora Titular, Coordenadora do Programa de Coleções Científicas e Biológicas e Curadora da Coleção de Anfíbios e Répteis do Instituto Nacional de Pesquisas da Amazônia (INPA). Principais linhas de pesquisa: evolução, sistemática, biogeografia e conservação da herpetofauna Neotropical, com foco em biomas abertos e florestais da América do Sul; efeitos de mudanças climáticas sobre a biodiversidade.

Lattes: http://lattes.cnpq.br/0507204139787803

Dr. Josué Anderson Rêgo Azevedo é Pós-doutor pelo Instituto Nacional de Pesquisas da Amazônia – INPA, Iniciativa Amazônia +10. Doutor em ciências naturais e biologia pela University of Gothenburg, Suécia (2015-2019). Mestre em Zoologia pela Universidade de Brasília (2012-2014). Biólogo graduado pela Universidade de Brasília-UnB (2011 – Bacharel e licenciado). Possui interesses nas áreas de evolução, biogeografia, sistemática, taxonomia, herpetofauna, genômica, genética de populações e impactos das mudanças climáticas. Atuou no desenvolvimento de scripts e pipelines computacionais dentro e fora do ambiente AWS para auxiliar nas pesquisas de genômica da adaptação e macroecologia da Amazônia.

Lattes: http://lattes.cnpq.br/8205376275910993

Dr. Érik Henrique de Lacerda Choueri é Doutor em Genética, Conservação e Biologia Evolutiva (INPA), tendo complementarmente realizado doutorado sanduíche na City University of New York (CUNY), investigando padrões filogeográficos de endemismo e diversidade evolutiva de pequenos vertebrados terrestres amazônicos, seus preditores históricos e ecológicos e definindo áreas prioritárias para a conservação da diversidade intraespecífica. Atualmente é bolsista FAPEAM PRODOC do Laboratório de Ecologia e Evolução de Vertebrados do INPA (LEEVI), desenvolvendo atividades de aquisição de dados moleculares para identificar sinais de adaptabilidade genômica da herpetofauna frente às mudanças climáticas.

Lattes: http://lattes.cnpq.br/7786783501209234

Msc. Raissa Rainha é Mestre em Ecologia no Instituto Nacional de Pesquisas da Amazônia (INPA) na área de ecologia e evolução de anuros da Amazônia com foco em diversificação e diferenciação fenotípica e genética de anuros amazônicos em diferentes ambientes florestais utilizando dados genéticos mitocondriais, morfometria geométrica em modelos 3D, métodos comparativos filogenéticos e variáveis ambientais. No doutorado em Ecologia no INPA tem como objetivo avaliar a vulnerabilidade às mudanças climáticas de anfíbios e lagartos amazônicos com a utilização de dados genômicos e funcionais (fisiológico e morfológico) com uma abordagem espaço-temporal. Fez uso de scripts e pipelines computacionais no ambiente AWS durante suas pesquisas de doutorado no INPA, com ênfase em processamento de dados genômicos.

Lattes: http://lattes.cnpq.br/5443940117414436

Msc. André Yves Barboza Martins é Bacharel em Ciências Biológicas pela Universidade Federal de Juiz de Fora (UFJF), Mestre em Ecologia pelo Instituto Nacional de Pesquisas da Amazônia (INPA) e, atualmente, aluno de Doutorado do Programa de Pós-Graduação em Zoologia da Universidade Federal do paraná (UFPR). Fez uso de scripts e pipelines computacionais no ambiente AWS durante suas pesquisas de mestrado no INPA, com ênfase em processamento de dados genômicos.

Lattes: http://lattes.cnpq.br/8348469601182523

Marcelo Ferreira Baptista é Solutions Architect no time de AWS LATAM. Trabalha com soluções de TI há mais de 30 anos, com experiência em vários seguimentos de mercado e diferentes ambientes tecnológicos. Especialista em DevOps, Computing e HPC, hoje atua como Arquiteto de Soluções, apoiando os clientes nos seus desafios, buscando as melhores soluções para as suas necessidades.