O blog da AWS

A computação na AWS impulsionando pesquisas em IA na saúde

Por Patricia Takako Endo, Professora Livre Docente, Universidade de Pernambuco (UPE);

e Igor V. Teixeira, Mestre em Engenharia da Computação, Escola Politécnica de Pernambuco (POLI/UPE);

e Kayo Henrique de C. Monteiro, aluno de Doutorado no Programa de Pós-Graduação em Engenharia de Computação (PPGEC), Escola Politécnica de Pernambuco (POLI/UPE);

e Elisson da Silva Rocha, Professor Assistente da Universidade de Pernambuco e aluno de Doutorado no Programa de Pós-Graduação em Engenharia de Computação (PPGEC);

e Marcelo Ferreira Baptista, Arquiteto de Soluções, AWS

A inteligência artificial e o aprendizado de máquina têm o potencial de revolucionar áreas como medicina, saúde pública e biotecnologia. Pesquisadores que buscam avançar o estado da arte em inteligência artificial (IA) para a saúde enfrentam desafios de infraestrutura. Recursos limitados de hardware, de escalabilidade e armazenamento de grandes conjuntos de dados dificultam o progresso. A computação em nuvem na AWS surge como uma solução viável para superar essas barreiras.

Desde 2019, uma parceria entre o CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico) e a AWS (Amazon Web Services) vem apoiando pesquisas científicas brasileiras com a doação de créditos para uso dos serviços de nuvem. Foram selecionados 32 projetos para receber um total de US$ 400 mil em créditos na nuvem da AWS por dois anos.

Um desses projetos foi desenvolvido por Patricia Takako Endo, professora da Universidade de Pernambuco (UPE), com sua equipe de pesquisa. Inicialmente, o objetivo era propor modelos de machine learning para classificação de gravidade de doenças e predição de epidemias, com foco em doenças negligenciadas, como arbovirose, tuberculose e malária.

Em 2020, com a chegada da pandemia de COVID-19, o grupo se viu diante da falta de recursos computacionais para realizar os experimentos planejados. Os créditos da AWS foram essenciais para contornar essas limitações e dar continuidade à pesquisa.

Metodologia

“Em ambos os editais do CNPq/AWS, nós utilizamos os recursos da AWS para realizar os treinamentos de todos os modelos de IA dos nossos projetos de pequisa aqui do grupo de pesquisa, o Grupo de Pesquisa em Transformação Digital, o dotLAB Brazil, que envolveram doenças negligenciadas e população vulnerável. Também utilizamos a AWS para hospedar algumas das nossas aplicações oriundas de projetos, como a VALERIA.”

A VALERIA é um aplicativo inovador de suporte à decisão que utiliza um modelo de inteligência artificial para auxiliar profissionais da saúde no diagnóstico clínico de arboviroses, como Dengue, Chikungunya e Zika.

Implementamos os projetos utilizando notebooks Jupyter, onde fomos executando os experimentos/notebooks de maneira manual. Em alguns experimentos também convertemos os notebooks em arquivos .py para possibilitar a execução em 2º plano.
Um exemplo de projeto pode ser acessado em nosso repositório público do dotlab-brasil.

Recursos AWS impulsionam experimentos em IA

Dentre os principais recursos AWS utilizados pelo grupo destacam-se:

  • Amazon Elastic Compute Cloud (Amazon EC2) — Para escalonar recursos sob demanda, obtendo capacidade de processamento e armazenamento necessários para treinamento dos modelos de IA. Foram utilizadas instâncias EC2 do tipo c6a.xlarge, com alto poder de processamento, o que permitiu o uso massivo de CPU e Memória para paralelizar os experimentos.
  • Amazon Simple Storage Service (Amazon S3) — Serviço de armazenamento de objetos para dados em larga escala, permitindo salvar conjuntos de imagens e outros dados dos experimentos com escalabilidade e alto desempenho.
  • Amazon SageMaker — Plataforma de machine learning que facilitou e centralizou o treinamento e implantação de modelos.

“A flexibilidade e poder computacional providos pela nuvem AWS permitiram à equipe não apenas realizar diversos experimentos, como escalar a metodologia criada inicialmente, obtendo modelos de IA mais precisos e publicando resultados em conferências e periódicos científicos.”

O ambiente do Sagemaker facilita o trabalho com diferentes frameworks e modelos de Inteligência Artificial e Machine Learning, permitindo aos cientistas de dados a liberdade para trabalhar com eficiência e com menor curva de aprendizado.
O Grupo utilizou diversos modelos de IA, entre eles: DecitionTree, RandomForest, AdaBoost, GBM, XGBoost, KNN, SVM, SVR, ARIMA, LSTM, GRU.

Benefícios do uso da nuvem AWS

O uso da nuvem AWS permitiu ao grupo extrair diversos benefícios, em comparação com o uso de ambientes On-premises, dentre eles:

  • Execução dos modelos de Machine Learning em uma semana, no lugar de meses.
  • Alguns modelos foram executados em 3 dias, contra 45 dias se executados em computadores On-premises.
  • Foi possível paralelizar o processo de processamento dos modelos, algo impossível fora da nuvem AWS.
  • A variedade de tipos de instâncias EC2 permitiu ao Grupo escolher o melhor tipo de instâncias para cada tipo de trabalho, utilizando instâncias c5a.4xlarge e c6a.8xlarge para demandas que exigiam mais CPU e Memória.
  • Processamentos de menor intensidade puderam ser executados em instâncias t3.medium e até t2.medium, menores e mais baratas, otimizando os custos do projeto.
  • Com a redução dos custos com CPU, foi possível utilizar instâncias maiores com GPU para o trabalho mais intenso de treinamento. Aqui as instâncias p3.2xlarge foram determinantes para acelerar os treinamentos.

Resultados obtidos

Alguns dos principais resultados alcançados com o apoio da nuvem AWS:

O sucesso dessa pesquisa permitiu à equipe da Professora Patricia Takako iniciar novos projetos, os quais já estão em andamento, aproveitando a segunda rodada de créditos recebidos pela AWS.

Conclusão

A experiência da Universidade de Pernambuco ressalta o potencial transformador que o acesso à computação em nuvem pode ter para pesquisas científicas, especialmente na área de inteligência artificial e saúde. Os recursos doados pela AWS foram cruciais para viabilizar os experimentos da equipe, gerando publicações e aplicativos inovadores. Parcerias como essa entre AWS e CNPq são essenciais para impulsionar a ciência brasileira.


Sobre os autores

Patricia Takako Endo é Professora Livre Docente da Universidade de Pernambuco (UPE), atuando no curso de Bacharelado em Sistemas de Informação – Campus Caruaru, e como membro permanente do Programa de Pós-Graduação em Engenharia de Computação (PPGEC) da Escola Politécnica de Pernambuco (POLI/UPE). Atualmente, é Vice-Coordenadora do PPGEC Caruaru. É pesquisadora líder do grupo de pesquisa dotLAB Brazil da UPE. Possui doutorado em Ciência da Computação pelo Centro de Informática (CIn) pela UFPE (2014), mestrado em Ciência da Computação pela UFPE (2008) na área de Redes de Computadores e graduação em Engenharia de Computação pela Universidade Federal do Pará (2005). Tem experiência na área de Engenharia da Computação, com ênfase em redes de computadores, telecomunicações e data science, atuando principalmente nos seguintes temas: tecnologias de rede, redes wireless, cloud computing, fog computing, sistemas e-health, data science aplicada a saúde.
Igor V. Teixeira possui mestrado em Engenharia da Computação pelo Programa de Pós-Graduação em Engenharia de Computação (PPGEC) da Escola Politécnica de Pernambuco (POLI/UPE) e graduação em Sistemas de Informação pela Universidade de Pernambuco (UPE). Tem experiência na área de desenvolvimento de software e em data science aplicada à saúde.
Kayo Henrique de C. Monteiro atualmente é aluno de Doutorado no Programa de Pós-Graduação em Engenharia de Computação (PPGEC) da Escola Politécnica de Pernambuco (POLI/UPE). Possui mestrado em Engenharia da Computação pelo PPGEC- POLI/UPE  e graduação em Sistemas de Informação pela UPE. É pesquisador do grupo de pesquisa dotLAB Brazil da UPE, e professor do Centro Universitário Unifavip – Wyden, atuando nos cursos de Bacharelado em Ciência da Computação e no Curso Superior em Tecnologia de Análise e Desenvolvimento de Sistemas. Tem experiência na área de desenvolvimento de software, sistemas e-health, e em data science aplicada à saúde.
Elisson da Silva Rocha Professor Assistente da Universidade de Pernambuco e aluno de Doutorado no Programa de Pós-Graduação em Engenharia de Computação (PPGEC), Escola Politécnica de Pernambuco (POLI/UPE).
Marcelo Ferreira Baptista é Solutions Architect no time de AWS LATAM. Trabalha com soluções de TI há mais de 30 anos, com experiência em vários seguimentos de mercado e diferentes ambientes tecnológicos. Especialista em DevOps, Computing e HPC, hoje atua como Arquiteto de Soluções, apoiando os clientes nos seus desafios, buscando as melhores soluções para as suas necessidades.

Revisores

Iris Ferreira é arquiteta de soluções na AWS, apoiando clientes em suas jornadas de inovação e transformação digital na nuvem. Em seu tempo livre, gosta de velejar e estar sempre em contato com a natureza.
Matheus Oliveira é arquiteto de soluções na AWS, especializado em engajamentos de Inteligência Artificial e Machine Learning. Com formação em Engenharia da Computação auxilia clientes a experimentarem soluções práticas e escaláveis, buscando impacto positivo e transformação por meio de computação em nuvem.
Raquel Campos Ferreira estudante de Relações Internacionais. Atualmente trabalha na Amazon Web Services com foco no gerenciamento de projetos.
Rubem Paulo Torri Saldanha é formado em Ciência da Computação. Atualmente trabalha na AWS com foco em projetos logo prazo com governos e instituições de pesquisa.