Estudo de caso da San Francisco State University

2014

O departamento de ciências da computação da San Francisco State University tem cerca de 400 alunos de graduação e 100 alunos de pós-graduação e está envolvendo os setores de educação e pesquisa. No momento, o departamento está trabalhando em um projeto de Machine Learning, chamado FEATURE, em colaboração com o Stanford Helix Group e apoiado pelo National Institute of Health, (NIH Grant LM05652).

O FEATURE usa o Machine Learning para prever grupos funcionais nas proteínas e outras estruturas moleculares tridimensionais (3D). O Professor Dragutin Petkovic explica: "A otimização massivamente paralela do Machine Learning envolve a aplicação de algoritmos de máquina de vetores de suporte (SVM) para milhares de conjuntos de treinamento compostos por centenas de milhares de vetores. Os parâmetros otimizados de SVM são encontrados por meio de pesquisas de rede paralelizadas com força bruta e validação cruzada por k vezes. Essa otimização envolve a repetição de operações similares várias vezes, independentemente." 

inicie um tutorial de python
kr_quotemark

A AWS disponibiliza acesso sob demanda a recursos de alto desempenho, o que nos permite manter o foco na ciência, em vez de no trabalho pesado de manutenção da infraestrutura do servidor.”

Professor Dragutin Petkovic
San Francisco State University

O desafio

O FEATURE, como outros projetos inovadores científicos, tem um apetite insaciável por computação de alto desempenho e os cientistas de pesquisa do projeto descobriram que a demanda computacional para explorar aspectos detalhados de moléculas biológicas logo ultrapassariam as instalações da universidade. Os recursos computacionais são compartilhados na San Francisco State University e a alta demanda significava que os pesquisadores precisavam reformular o tamanho e o escopo de suas questões ou enfrentar longos atrasos na disponibilização de recursos. Além disso, estas restrições levaram a longas esperas por resultados e aplicaram um limite arbitrário nos testes que os cientistas poderiam executar.

Por que a Amazon Web Services

Os cientistas só precisavam de recursos computacionais periodicamente e não seria econômico comprar um recurso enorme e mantê-lo para um uso irregular. Enquanto a equipe de pesquisa considerava as opções, eles perceberam que o acesso sob demanda a recursos computacionais disponibilizado pela Amazon Web Services (AWS) atendia às suas necessidades. "O modelo de pagamento conforme o uso do Amazon Elastic Compute Cloud (Amazon EC2) era a opção mais adequada em comparação com a aquisição de um grande servidor interno", diz o Professor Petkovic.

A equipe de pesquisa criou o FEATURE usando C, C++, Perl e Python, entre outras ferramentas. Eles implantaram o cluster no Amazon EC2 usando o MIT StarCluster, uma ferramenta automática de provisionamento criada para computação de alto desempenho científica e técnica. O Protein Databank e os bancos de dados de estruturas de proteínas foram carregados em volumes do Amazon Elastic Block Store (Amazon EBS) para fácil gestão e reutilização, e são acessados usando uma Amazon Linux Machine Image (Amazon Linux AMI) personalizada.

Os benefícios

Para avaliar o desempenho do projeto FEATURE na AWS, a equipe usou a criação de perfil de software e o benchmarking de E/S para calcular as métricas de desempenho. Petkovic explica, "A equipe tem um pequeno cluster interno com 40 nós. Nós comparamos isso com a nuvem e descobrimos que o Amazon EC2 era altamente superior em termos de ciclos de CPU por custo, além de viabilizar o aumento da escala vertical quando fosse necessário. Os testes que antes levavam semanas, agora podem ser feitos em uma noite. Isso significa que nossos cientistas estão sempre ocupados e não esperando por resultados. A AWS reduziu imensamente nosso tempo de resposta para consultas científicas."

O Professor Petkovic estima que os custos de computação foram reduzidos em cerca de 20 vezes. "Estimamos que um cluster pequeno interno de 40 nós é executado a um valor de 1,71 USD por unidade de computador por hora. Em comparação, o Amazon EC2 custa para nós apenas 0,08 USD por unidade de computador elástica (ECU) equivalente por hora", explica. Além disso, Petkovic e sua equipe podem usar alertas de pagamento e outras ferramentas de otimização de custos que a AWS disponibiliza para planejar e gerenciar o custo de uso do serviço.

"A AWS disponibiliza acesso sob demanda a recursos de alto desempenho, o que nos permite manter o foco na ciência, em vez de no trabalho pesado de manutenção da infraestrutura do servidor. A AWS nos ajuda a eliminar as limitações de tamanho e escopo dos nossos testes de Machine Learning", diz Petkovic.

San Francisco State University architecture diagram

Sobre a San Francisco State University

O departamento de ciências da computação da San Francisco State University tem cerca de 400 alunos de graduação e 100 alunos de pós-graduação e está envolvendo os setores de educação e pesquisa. No momento, o departamento está trabalhando em um projeto de Machine Learning, chamado FEATURE, em colaboração com o Stanford Helix Group e apoiado pelo National Institute of Health, (NIH Grant LM05652)


Serviços da AWS usados

Amazon EC2

Capacidade computacional segura e redimensionável na nuvem. Execute aplicativos quando necessário, sem compromissos antecipados.

Saiba mais >>

Amazon EBS

O Amazon Elastic Block Store (EBS) é um serviço de armazenamento de blocos de alta performance fácil de usar projetado para o uso com o Amazon Elastic Compute Cloud (EC2).

Saiba mais >>

Amazon Linux AMI

O Amazon Linux AMI é uma imagem compatível e mantida do Linux fornecida pela Amazon Web Services para uso no Amazon Elastic Compute Cloud (Amazon EC2).

Saiba mais >>


Comece a usar

Empresas de todos os portes em todos os setores estão transformando seus negócios diariamente usando a AWS. Entre em contato com nossos especialistas e inicie sua própria jornada para a Nuvem AWS hoje mesmo.