O departamento de ciências da computação da San Francisco State University tem cerca de 400 alunos de graduação e 100 alunos de pós-graduação e está envolvido com os setores de educação e pesquisa. No momento, o departamento está trabalhando em um projeto de aprendizado de máquina, chamado FEATURE, em colaboração com o Stanford Helix Group e apoiado pelo National Institute of Health, (NIH Grant LM05652).

O FEATURE usa o aprendizado de máquina para prever grupos funcionais nas proteínas e outras estruturas moleculares tridimensionais (3D). O Professor Dragutin Petkovic explica: "A otimização massivamente paralela do aprendizado de máquina envolve a aplicação de algoritmos de máquina de vetores de suporte (SVM) para milhares de conjuntos de treinamento compostos por centenas de milhares de vetores. Os parâmetros otimizados de SVM são encontrados por meio de pesquisas de rede paralelizadas com força bruta e validação cruzada por k vezes. Essa otimização envolve a repetição de operações similares várias vezes, independentemente". A Figura 1 abaixo ilustra o projeto FEATURE.

Detalhes do projeto do estudo de caso da AWS da SF State

Figura 1: Detalhes do projeto FEATURE

O FEATURE, como outros projetos inovadores científicos, tem um apetite insaciável por computação de alto desempenho e os cientistas de pesquisa do projeto descobriram que a demanda computacional para explorar aspectos detalhados de moléculas biológicas logo ultrapassariam as instalações da universidade. Os recursos computacionais são compartilhados na San Francisco State University e a alta demanda significava que os pesquisadores precisavam reformular o tamanho e o escopo de suas questões ou enfrentar longos atrasos na disponibilização de recursos. Além disso, estas restrições levaram a longas esperas por resultados e aplicaram um limite arbitrário nos testes que os cientistas poderiam executar.

Os cientistas só precisavam de recursos computacionais periodicamente e não seria econômico comprar um recurso enorme e mantê-lo para um uso irregular. Enquanto a equipe de pesquisa considerava as opções, eles perceberam que o acesso sob demanda a recursos computacionais disponibilizado pela Amazon Web Services (AWS) atendia às suas necessidades. "O modelo de pagamento conforme o uso do Amazon Elastic Compute Cloud (Amazon EC2) era a opção mais adequada em comparação com a aquisição de um grande servidor interno", diz o Professor Petkovic.

A equipe de pesquisa criou o FEATURE usando C, C++, Perl e Python, entre outras ferramentas. Eles implantaram o cluster no Amazon EC2 usando o MIT StarCluster, uma ferramenta automática de provisionamento criada para computação de alto desempenho científica e técnica. O Protein Databank e os bancos de dados de estruturas de proteínas foram carregados em volumes do Amazon Elastic Block Store (Amazon EBS) para fácil gestão e reutilização, e são acessados usando uma Amazon Linux Machine Image (Amazon Linux AMI) personalizada. A Figura 2 demonstra a arquitetura do projeto FEATURE.

Diagrama da arquitetura da AWS da San Francisco State University

Figura 2: Arquitetura do projeto FEATURE

Para avaliar o desempenho do projeto FEATURE na AWS, a equipe usou a criação de perfil de software e a avaliação comparativa de E/S para calcular as métricas de desempenho. Petkovic explica, "A equipe tem um pequeno cluster interno com 40 nós. Nós comparamos isso com a nuvem e descobrimos que o Amazon EC2 era altamente superior em termos de ciclos de CPU por custo, além de viabilizar o aumento da escala vertical quando fosse necessário. Os testes que antes levavam semanas, agora podem ser feitos em uma noite. Isso significa que nossos cientistas estão sempre ocupados e não esperando por resultados. A AWS reduziu imensamente nosso tempo de resposta para consultas científicas".

O Professor Petkovic estima que os custos de computação foram reduzidos em cerca de 20 vezes. "Estimamos que um cluster pequeno interno de 40 nós é executado a um valor de 1,71 USD por unidade de computador por hora. Em comparação, o Amazon EC2 custa para nós apenas 0,08 USD por unidade de computador elástica (ECU) equivalente por hora", explica. Além disso, Petkovic e sua equipe podem usar alertas de pagamento e outras ferramentas de otimização de custos que a AWS disponibiliza para planejar e gerenciar o custo de uso do serviço.

"A AWS disponibiliza acesso sob demanda a recursos de alto desempenho, o que nos permite manter o foco na ciência, em vez de no trabalho pesado de manutenção da infraestrutura do servidor. A AWS nos ajuda a eliminar as limitações de tamanho e escopo dos nossos testes de aprendizado de máquina", diz Petkovic.

Para saber mais sobre genômica na nuvem, acesse a página de detalhes sobre genômica da AWS.

Para descobrir como a AWS pode ajudar a atender a necessidades de computação de alto desempenho, acesse a página de detalhes sobre computação de alto desempenho.