Nossa análise de lncRNA exige muito processamento e integração computacionais. Usando a AWS, podemos usar rapidamente computação em 1.000 ou mais nós, acelerando o tempo da análise de sequenciamento genômico de semanas para dias. 
Dr. Mitch Guttman Professor assistente da divisão de biologia e engenharia biológica

O Guttman Lab de biologia de lncRNA no California Institute of Technology (Caltech) é um laboratório de pesquisa comandado pelo famoso cientista Dr. Mitch Guttman. Ele lidera uma equipe de pesquisadores que estuda uma nova classe de genes, denominados lncRNAs, abreviação de RNA longo não codificante. Usando abordagens genômicas, juntamente com bioquímica, biologia molecular, biologia celular e biologia computacional, Guttman e sua equipe exploram como os lncRNAs organizam moléculas de proteína e DNA na célula para controlar programas precisos de expressão de genes.

Quando o Dr. Guttman chegou à Caltech em 2013, ele queria ter certeza de que a sua equipe de pesquisa dispunha de um cluster de computação de alta performance (HPC) elástico e flexível. "Quando pensamos em um cluster para o laboratório, sabíamos que ele teria de comportar nossas demandas flutuantes de computação", disse Guttman. "Algumas vezes, precisamos de 1.000 nós de computação; outras vezes, apenas 10. Depende da disponibilidade dos dados e da fase do projeto de pesquisa em que estamos. E a convergência de vários projetos simultâneos pode aumentar esse número ainda mais."

No entanto, o laboratório não queria ter de criar seu próprio cluster no local para atender à essa necessidade. "Na Califórnia, os custos de imóveis e energia elétrica estão entre os mais altos do país. Por isso, o custo de criarmos nosso próprio cluster aqui era uma preocupação", afirmou John Lilley, administrador-chefe de sistemas e serviços de gerenciamento de informações do Caltech. "Também não queríamos gastar o nosso tempo gerenciando e mantendo o cluster."

Além disso, Guttman e sua equipe queriam assegurar a capacidade de gerenciar facilmente as credenciais de acesso ao cluster. "Queríamos poder ativar e desativar contas de usuários do cluster de um local central, sem nos preocuparmos com credenciais despercebidas nas máquinas", afirmou Lilley.

O Caltech já tinha mudado toda a sua presença web para a plataforma de nuvem da Amazon Web Services (AWS). O Guttman Lab também optou por usar a AWS para hospedar o cluster de HPC. "Estávamos procurando por uma forma de usar a nuvem para nossos recursos de computação e a AWS era a melhor opção, porque ofereceu a elasticidade, a flexibilidade e a economia de que precisávamos", comentou Lilley.

O Guttman Lab usa um cluster de HPC que inclui computadores conectados a uma Amazon Virtual Private Cloud (Amazon VPC), usada pelo laboratório para provisionar uma seção isolada logicamente da Nuvem AWS para lançar recursos da AWS em uma rede virtual definida. Os pesquisadores de laboratórios secos e molhados adquirem dados de sequenciamento genômico e os salvam em um sistema de arquivos GlusterFS dentro da Amazon VPC, acessando-os por meio de uma estação de trabalho Linux compartilhada, baseada na AWS e com autenticação via Simple AD, um diretório compatível com Active Directory, disponibilizado pelo AWS Directory Service.

O laboratório também usa o serviço de computação de desktops gerenciados Amazon WorkSpaces para usuários não Linux. "Queríamos que nossos usuários Windows pudessem se conectar dos PCs do laboratório seco aos Amazon WorkSpaces e ter o mesmo nível de acesso que os usuários Linux", afirmou Lilley. "E podemos usar o Simple AD para gerenciar esse acesso com facilidade." O laboratório usa instâncias do Amazon Elastic Compute Cloud (Amazon EC2) para os nós de GlusterFS, bem como um framework CfnCluster para implantar e manter seu cluster de HPC na AWS. A equipe de pesquisa usa esse cluster para desenvolver ferramentas computacionais e métodos estatísticos para analisar dados experimentais.

Agora, com a AWS, o Guttman Lab tem a elasticidade de gerenciar as demandas flutuantes de computação. "Não tivemos de criar o nosso próprio cluster físico para gerenciar nosso uso de computação cíclico porque a AWS altera automaticamente a escala para nós", disse Lilley. "Agora, não precisamos gastar tempo priorizando antecipadamente os projetos e sabemos que teremos poder computacional suficiente sem necessidade de atualizar hardware a cada dois ou três anos. Também podemos desenvolver e testar ativamente novos métodos de pesquisa. A AWS é, definitivamente, uma capacitadora do nosso laboratório", acrescentou Guttman.

O laboratório também tem a agilidade necessária para adicionar facilmente mais recursos de computação, quando necessários. "Recentemente, precisamos expandir nosso sistema de GlusterFS de 5 terabytes para 24 terabytes e pudemos fazer isso sem comprar mais hardware", afirmou Lilley. "Foi suficiente adicionar mais nós do Amazon EC2 e mais armazenamento na nuvem, o que demorou apenas uma hora. Antes, precisaríamos de semanas para isso, porque teríamos de discutir os preços de compra de hardware e comprar, instalar e testar esse hardware."

Além disso, os pesquisadores do laboratório podem agilizar a análise de dados de lncRNA usando a Nuvem AWS. "Nossa análise de lncRNA exige muito processamento e integração computacionais", comentou Guttman. "Usando a AWS, podemos usar rapidamente computação em 1.000 ou mais nós, acelerando o tempo da análise de sequenciamento genômico de semanas para dias. Não poderíamos fazer isso com a capacidade limitada que tínhamos antes."

O laboratório também conseguiu reduzir custos usando instâncias spot do Amazon EC2 para fazer propostas por capacidade computacional avulsa do Amazon EC2. "Quando você considera os recursos de computação elásticos que obtemos usando a AWS, bem como a economia das instâncias spot do EC2, esse cluster é muito mais barato que qualquer coisa que tentássemos fazer internamente", disse Guttman.

O uso do Amazon WorkSpaces e do Simple AD permite que o Guttman Lab possa gerenciar facilmente o acesso ao cluster de HPC. "Quando começamos com o cluster, era difícil sincronizar as credenciais do desktop Linux para os hosts de gerenciamento e o CfnCluster", disse Lilley. "Com a integração do Simple AD ao cluster, economizamos muito tempo porque podemos ativar e desativar contas de usuário em um local central. O Simple AD nos ajuda a manter a uniformidade em todo o ambiente."

Com o tempo, o Caltech planeja operar mais laboratórios e departamentos na AWS. "Estamos levando o que criamos na AWS para outros pesquisadores genômicos em todo o campus", afirmou Lilley. "Encaremos isso como um modelo para o futuro de HPC no Caltech."

Para saber mais sobre genômica na nuvem, acesse a nossa página de detalhes de genômica na AWS.

Para saber mais sobre como a AWS pode ajudar a gerenciar um cluster de HPC, acesse a nossa página de detalhes sobre computação de alta performance da AWS.