Estudo de caso do Guttman Lab do Caltech

2016

O Guttman Lab de biologia de lncRNA no California Institute of Technology (Caltech) é um laboratório de pesquisa comandado pelo famoso cientista Dr. Mitch Guttman. Ele lidera uma equipe de pesquisadores que estuda uma nova classe de genes, denominados lncRNAs, abreviação de RNA longo não codificante. Usando abordagens genômicas, juntamente com bioquímica, biologia molecular, biologia celular e biologia computacional, Guttman e sua equipe exploram como os lncRNAs organizam moléculas de proteína e DNA na célula para controlar programas precisos de expressão de genes.

inicie um tutorial de python
kr_quotemark

Nossa análise de lncRNA exige muito processamento e integração computacionais. Usando a AWS, podemos usar rapidamente computação em 1.000 ou mais nós, acelerando o tempo da análise de sequenciamento genômico de semanas para dias.”

Dr. Mitch Guttman
Professor assistente da divisão de biologia e engenharia biológica, Caltech Guttman Lab

O desafio

Quando o Dr. Guttman chegou à Caltech em 2013, ele queria ter certeza de que a sua equipe de pesquisa dispunha de um cluster de computação de alta performance (HPC) elástico e flexível. "Quando pensamos em um cluster para o laboratório, sabíamos que ele teria de comportar nossas demandas flutuantes de computação", disse Guttman. "Algumas vezes, precisamos de 1.000 nós de computação; outras vezes, apenas 10. Depende da disponibilidade dos dados e da fase do projeto de pesquisa em que estamos. E a convergência de vários projetos simultâneos pode aumentar esse número ainda mais."

No entanto, o laboratório não queria ter de criar seu próprio cluster no local para atender à essa necessidade. "Na Califórnia, os custos de imóveis e energia elétrica estão entre os mais altos do país. Por isso, o custo de criarmos nosso próprio cluster aqui era uma preocupação", afirmou John Lilley, administrador-chefe de sistemas e serviços de gerenciamento de informações do Caltech. "Também não queríamos gastar o nosso tempo gerenciando e mantendo o cluster."

Além disso, Guttman e sua equipe queriam assegurar a capacidade de gerenciar facilmente as credenciais de acesso ao cluster. "Queríamos poder ativar e desativar contas de usuários do cluster de um local central, sem nos preocuparmos com credenciais despercebidas nas máquinas", afirmou Lilley.

Por que a Amazon Web Services

O Caltech já tinha mudado toda a sua presença web para a plataforma de nuvem da Amazon Web Services (AWS). O Guttman Lab também optou por usar a AWS para hospedar o cluster de HPC. "Estávamos procurando por uma forma de usar a nuvem para nossos recursos de computação e a AWS era a melhor opção, porque ofereceu a elasticidade, a flexibilidade e a economia de que precisávamos", comentou Lilley.

O Guttman Lab usa um cluster de HPC que inclui computadores conectados a uma Amazon Virtual Private Cloud (Amazon VPC), usada pelo laboratório para provisionar uma seção isolada logicamente da Nuvem AWS para lançar recursos da AWS em uma rede virtual definida. Os pesquisadores de laboratórios secos e molhados adquirem dados de sequenciamento genômico e os salvam em um sistema de arquivos GlusterFS dentro da Amazon VPC, acessando-os por meio de uma estação de trabalho Linux compartilhada, baseada na AWS e com autenticação via Simple AD, um diretório compatível com Active Directory, disponibilizado pelo AWS Directory Service.

O laboratório também usa o serviço de computação de desktops gerenciados Amazon WorkSpaces para usuários não Linux. "Queríamos que nossos usuários Windows pudessem se conectar dos PCs do laboratório seco aos Amazon WorkSpaces e ter o mesmo nível de acesso que os usuários Linux", afirmou Lilley. "E podemos usar o Simple AD para gerenciar esse acesso com facilidade." O laboratório usa instâncias do Amazon Elastic Compute Cloud (Amazon EC2) para os nós de GlusterFS, bem como a estrutura CfnCluster para implantar e manter seu cluster de HPC na AWS. A equipe de pesquisa usa esse cluster para desenvolver ferramentas computacionais e métodos estatísticos para analisar dados experimentais.

Os benefícios

Agora, com a AWS, o Guttman Lab tem a elasticidade de gerenciar as demandas flutuantes de computação. "Não tivemos de criar o nosso próprio cluster físico para gerenciar nosso uso de computação cíclico porque a AWS altera automaticamente a escala para nós", disse Lilley. "Agora, não precisamos gastar tempo priorizando antecipadamente os projetos e sabemos que teremos poder computacional suficiente sem necessidade de atualizar hardware a cada dois ou três anos. Também podemos desenvolver e testar ativamente novos métodos de pesquisa. A AWS é, definitivamente, uma capacitadora do nosso laboratório.”

O laboratório também tem a agilidade necessária para adicionar facilmente mais recursos de computação, quando necessários. "Recentemente, precisamos expandir nosso sistema de GlusterFS de 5 terabytes para 24 terabytes e pudemos fazer isso sem comprar mais hardware", afirmou Lilley. "Foi suficiente adicionar mais nós do Amazon EC2 e mais armazenamento na nuvem, o que demorou apenas uma hora. Antes, precisaríamos de semanas para isso, porque teríamos de discutir os preços de compra de hardware e comprar, instalar e testar esse hardware."

Além disso, os pesquisadores do laboratório podem agilizar a análise de dados de lncRNA usando a Nuvem AWS. "Nossa análise de lncRNA exige muito processamento e integração computacionais", comentou Guttman. "Usando a AWS, podemos usar rapidamente computação em 1.000 ou mais nós, acelerando o tempo da análise de sequenciamento genômico de semanas para dias. Não poderíamos fazer isso com a capacidade limitada que tínhamos antes."

O laboratório também pôde reduzir custos usando as instâncias spot do Amazon EC2 que oferecem capacidade computacional não utilizada do Amazon EC2 por preços que chegam a ser até 90% mais baixos do que os preços das instâncias sob demanda. "Quando você considera os recursos de computação elásticos que obtemos usando a AWS, bem como a economia das instâncias spot do EC2, esse cluster é muito mais barato que qualquer coisa que tentássemos fazer internamente", disse Guttman.

O uso do Amazon WorkSpaces e do Simple AD permite que o Guttman Lab possa gerenciar facilmente o acesso ao cluster de HPC. "Quando começamos com o cluster, era difícil sincronizar as credenciais do desktop Linux para os hosts de gerenciamento e o CfnCluster", disse Lilley. "Com a integração do Simple AD ao cluster, economizamos muito tempo porque podemos ativar e desativar contas de usuário em um local central. O Simple AD nos ajuda a manter a uniformidade em todo o ambiente."

Com o tempo, o Caltech planeja operar mais laboratórios e departamentos na AWS. "Estamos levando o que criamos na AWS para outros pesquisadores genômicos em todo o campus", afirmou Lilley. "Encaremos isso como um modelo para o futuro de HPC no Caltech."


Sobre o Guttman Lab do Caltech

O Guttman Lab de biologia de lncRNA no California Institute of Technology (Caltech) é um laboratório de pesquisa comandado pelo famoso cientista Dr. Mitch Guttman.


Serviços da AWS usados

Amazon EC2

O Amazon Elastic Compute Cloud (Amazon EC2) é um web service que disponibiliza capacidade computacional segura e redimensionável na nuvem. Ele foi projetado para facilitar a computação em nuvem na escala da web para os desenvolvedores.

Saiba mais »

Amazon VPC

A Amazon Virtual Private Cloud (Amazon VPC) permite provisionar uma seção da Nuvem AWS isolada logicamente na qual é possível executar recursos da AWS em uma rede virtual que você mesmo define.

Saiba mais »

Amazon WorkSpaces

O Amazon WorkSpaces é uma solução de desktop como serviço (DaaS) gerenciada e segura.

Saiba mais »


Comece a usar

Empresas de todos os portes em todos os setores estão transformando seus negócios diariamente usando a AWS. Entre em contato com nossos especialistas e inicie sua própria jornada para a Nuvem AWS hoje mesmo.