O blog da AWS

A computação na nuvem da AWS impulsionando avanços em bioinformática.

Por Eduardo Tarazona Santos, Professor Titular de Genética Humana da Universidade Federal de Minas Gerais – UFMG; 

e Carolina Silva de Carvalho, aluna de doutorado no programa de Programa Interunidades de Pós-Graduação em Bioinformática da UFMG;

e Lucas Faria Costa, aluno de doutorado no programa de Programa Interunidades de Pós-Graduação em Bioinformática da UFMG; 

e Marcelo Ferreira Baptista, Arquiteto de Solucões, AWS.

A nuvem da AWS tem se mostrado uma aliada poderosa para pesquisadores que trabalham com análises complexas de dados biológicos e genômicos. Em parceria com o CNPq, a AWS vem apoiando projetos de ponta que de outra forma enfrentariam limitações e gargalos computacionais.

O grupo liderado pelo professor Eduardo Tarazona Santos da UFMG é um exemplo de sucesso. Eles trabalham com a genética de populações latino-americanas miscigenadas, buscando entender a ancestralidade dessas populações e seus efeitos na saúde.

Em sua pesquisa, o grupo pode perceber as vantagens do uso da nuvem da AWS, reduzindo o tempo para obtenção dos resultados de meses para dias, com escalabilidade e sem a necessidade de serviços de terceiros.

A Pesquisa

Para inferir a ancestralidade de indivíduos, os pesquisadores utilizam o software ADMIXTURE, usado para estimativa de máxima verossimilhança de ancestrais individuais a partir de conjuntos de dados de genótipos SNP multilocus. Essa análise exige enorme capacidade computacional, viabilizada com a ajuda da nuvem AWS. Com o poder de processamento da AWS, os cientistas conseguiram resultados em menos de um mês, contra uma estimativa de 4 meses sem o uso da nuvem.

“Atualmente, a escalabilidade dos dados genéticos vem se tornando um problema quando falamos de armazenamento e processamento. As análises realizadas para inferência de ancestralidade individual e populacional através do software ADMIXTURE demandam mais processamento que os demais processos que realizamos. As instâncias do Amazon Elastic Compute Cloud (Amazon EC2) permitiram que as nossas análises fossem feitas em tempo recorde, reduzindo para 25 dias uma estimativa de 4 meses. Além disso, as necessidades para o armazenamento dos dados de referência, usados para fazer as inferências e para os resultados obtidos, foram supridas com Amazon Elastic File System (Amazon EFS) e com o Amazon Simple Storage Service (Amazon S3).”

A equipe realizou a adição de milhões de variantes genéticas, outro processo extremamente demandante, e mais uma vez, a nuvem AWS permitiu finalizar a tarefa de maneira antecipada; em 4 dias, ao invés dos 14 dias projetados sem o uso da nuvem. Foram utilizadas instâncias do Amazon EC2 com até 96 núcleos de processamento e 192 GB de memória RAM para rodar as análises.

“Para o armazenamento dos bancos de dados de referência utilizados para as análises e o backup de dados de uma coorte brasileira que havíamos recebido, utilizamos do Amazon S3 (nomeado como s2-ldgh).”

Os dados de referência para o processo de imputação (inferência para aumento do número de variantes disponíveis) são dados de sequências de genomas humanos. Neles estão contidas as informações genéticas das variantes presentes em indivíduos dos continentes americano, africano, europeu e asiático. Cada continente é dividido em seus respectivos países conforme os dados públicos que tínhamos acesso. Todos os dados públicos utilizados estão disponíveis em https://www.internationalgenome.org/data.

Para o Amazon EFS (chamado de efs-ldgh/database), utilizamos dados de referência para a chamada de variantes e anotação farmacogenética. Neste modulo de armazenamentos, possuímos os files de “Clinicalguidanceannotations”, “DrugLabelAnnotations”, “VariantAndClinicalAnnotaionsData”, “ClinicalVariantData” e “VariantGeneDrugRelationshipData“. Todos os dados públicos utilizados estão disponíveis em https://www.pharmgkb.org/downloads.”

A metodologia utilizada pelo grupo pode ser analisada com mais detalhes em repositório no GitHub.
A equipe desenvolve a ferramenta MosA3ic para automatizar a integração de parte dessas metodologias (PCA, Admixture e a inferência da ancestralidade local com RFMix2). O programa atualmente realiza todos os passos necessários para as de PCA, ADMIXTURE, Local Ancestry com RFMix2, Identity by descente (IBD) é referenciado publicamente neste repositório do GitHub.

Benefícios do uso da Nuvem AWS

Para as análises de imputação de 1246 indivíduos e 2230802 variantes, utilizamos (localmente) 20 Threads e um total de 128GB disponíveis. Os cromossomos foram corridos linearmente e realizando a deleção de arquivos intermediários. Esse processo demorou 14 dias.
Para os mesmos indivíduos e variantes, utilizando uma instância do Amazon EC2 do tipo r5n.24xlarge, com 96 Threads e 768 GB de memória RAM, precisamos de apenas 4 dias.

As inferências de ancestralidade também obtiveram desempenho melhorado na nuvem da AWS. Para um conjunto de 9351 indivíduos e aproximadamente 600 mil variantes, realizamos as corridas de K3 a K12 (clusters de população ancestral representativos em nossos dados alvo), localmente, totalizando 120 dias de análises. Para esse mesmo conjunto de dados, em uma instância do Amazon EC2 do tipo r5n.24xlarge, com 96 Threads e 192 GB de RAM, o tempo total foi de 25 dias.

Resultados Obtidos

Os resultados obtidos foram surpreendentes. O grupo identificou diferenças na ancestralidade entre cromossomos, sugerindo que a miscigenação na América Latina ocorreu principalmente entre homens europeus e mulheres nativas ou africanas. Também encontraram uma variante que aumenta o risco de obesidade em mulheres, originária da ancestralidade africana.

Conclusão

A pesquisa gerou um artigo científico que está em revisão pela revista Cell (https://www.cell.com/), sob o título: “Genomics studies in underrepresented people: clinically actionable genotypes in Andeans and Amazonians.”

Esse trabalho e suas descobertas só foram possíveis graças ao poder de processamento disponibilizado pela nuvem da AWS. Sem essa capacidade computacional, levaria meses ou anos para obter os mesmos resultados. A computação em nuvem está revolucionando a pesquisa em diversas áreas, permitindo análises antes inimagináveis.


Sobre os Autores

Eduardo Tarazona Santos é Professor Titular de Genética Humana da Universidade Federal de Minas Gerais – UFMG, onde lidera o Laboratório de Diversidade Genética Humana. Coordena o Instituto Nacional de Ciência e Tecnologia Ancestralidade, saúde e bioinformática no Brasil e a Rede Mineira de Genômica Populacional e Medicina de Precisão e um dos Centros Âncoras do projeto Genomas SUS. Possui graduação em Ciências Biológicas pela Universidade de Bologna (Itália), Mestrado pela Universidade Federal de Minas Gerais (UFMG), Doutorado em Bioquímica pela UFMG e em Antropologia pela Universidade de Bologna. Fez Pós-doutorado em genética de populações humanas e epidemiologia genética na Universidade de Maryland e no National Cancer Institute (NIH, USA).
Carolina Silva de Carvalho é aluna de doutorado no programa de Programa Interunidades de Pós-Graduação em Bioinformática da UFMG. Passou por período de doutorado sanduíche no National Cancer Institute (NCI) nos EUA. Possui mestrado em Genética, com foco em Genômica e Bioinformática, e Bacharelado em Ciências Biológicas pela UFMG. Atuação na área de genética de populações e pipelines de ancestralidade genética.
Lucas Faria Costa é aluno de doutorado no programa de Programa Interunidades de Pós-Graduação em Bioinformática da UFMG. Possui mestrado em Bioinformática, com foco em Genética de Populações, e graduação em Matemática pela UFMG. Atuando principalmente na área de análise de ancestralidade genética e estruturação populacional. Atualmente, PhD Student Trainee do Global Parkinson’s Genetics Program (GP2) para estudos de Parkinson em populações sub-representadas, com fellowship financiado por The Michael J. Fox Foundation for Parkinson’s Research.
Marcelo Ferreira Baptista é Solutions Architect no time de AWS LATAM. Trabalha com soluções de TI há mais de 30 anos, com experiência em vários seguimentos de mercado e diferentes ambientes tecnológicos. Especialista em DevOps, Computing e HPC, hoje atua como Arquiteto de Soluções, apoiando os clientes nos seus desafios, buscando as melhores soluções para as suas necessidades.

Revisores

Iris Ferreira é arquiteta de soluções na AWS, apoiando clientes em suas jornadas de inovação e transformação digital na nuvem. Em seu tempo livre, gosta de velejar e estar sempre em contato com a natureza.
Matheus Oliveira é arquiteto de soluções na AWS, especializado em engajamentos de Inteligência Artificial e Machine Learning. Com formação em Engenharia da Computação auxilia clientes a experimentarem soluções práticas e escaláveis, buscando impacto positivo e transformação por meio de computação em nuvem.
Raquel Campos Ferreira estudante de Relações Internacionais. Atualmente trabalha na Amazon Web Services com foco no gerenciamento de projetos.
Rubem Paulo Torri Saldanha é formado em Ciência da Computação. Atualmente trabalha na AWS com foco em projetos logo prazo com governos e instituições de pesquisa.