Estudo de caso da Baylor
2014
A Faculdade de Medicina de Baylor em Houston, no Texas, abriga o Human Genome Sequencing Center (HGSC), um dos três centros de sequenciamento financiados pelo governo federal dos EUA. Um dos projetos do HGSC envolve o projeto Cohorts for Heart and Aging Research in Genomic Epidemiology (CHARGE), um consórcio com mais de 200 cientistas de 5 instituições em todo o mundo que trabalham para identificar genes que contribuem para o envelhecimento e doenças cardíacas. O projeto CHARGE, que é um consórcio contínuo, analisa amostras genéticas e dados fenotípicos dos extensos estudos de coortes do National Heart, Lung, and Blood Institute (NHLBI) e de outros estudos similares na Europa. O CHARGE e a Faculdade de Medicine de Baylor estão colaborando para sequenciar muitos dos participantes do estudo e processá-los por meio do Mercury, o pipeline de análise da Baylor, para ajudar cientistas a entender melhor como a variação genética pode desempenhar um importante papel na prevenção e no tratamento de derrames e doenças cardíacas. A Baylor tem 20 máquinas de sequenciamento que disponibilizam cerca de 24 terabases de conteúdo ao mês, aproximadamente 1 PB de dados brutos. No momento, há mais de 14 mil participantes no estudo. A magnitude dos recursos de dados exigia soluções de dados inovadoras.
"Atualizar a infraestrutura para cada grande influxo previsto exige um investimento substancial, fora o espaço necessário. Estes tipos de computação não são eventos únicos, eles continuam a crescer exponencialmente. Existem inúmeros tipos de limitações que impedem nossa capacidade de ampliar horizontes científicos. Mas agora, graças à AWS e à DNAnexus, podemos nos concentrar na ciência e não na infraestrutura."
Narayanan Veeraraghavan
Cientista e programador chefe, Baylor
O desafio
No século passado, vários estudos seguiram pacientes durante toda a vida para determinar como as pessoas desenvolviam determinadas condições ou doenças. Com o desenvolvimento de ferramentas de sequenciamento de DNA, bem como da capacidade de gerenciar grandes conjuntos de dados, os resultados desses estudos estão agora sendo analisados novamente como parte do projeto CHARGE. Cientistas do CHARGE em todo o mundo estão usando dados para pesquisar as causas e as prevenções de doenças.
Mas, à medida que os sequenciadores de DNA ficam mais eficientes e os testes genômicos mais predominantes, a quantidade de dados a ser analisada tornou-se realmente gigantesca. Com mais de 430 TB de dados em jogo no projeto CHARGE, a simples distribuição dos dados para os cientistas interessados era por si só um desafio. Antigamente, discos rígidos contendo os dados seriam criptografados e enviados pelo correio para os mais de 200 cientistas envolvidos no projeto CHARGE, o que criaria atrasos no compartilhamento de informações, além de problemas na segurança dos dados. "Ter que enviar discos rígidos para tantas pessoas seria um pesadelo logístico", comenta Narayanan Veeraraghavan, Cientista e programador chefe na Baylor. "Os dados teriam que ser criptografados em todos os pontos. Com tantos cientistas processando tamanha quantidade de discos rígidos, ocorreriam muitas falhas, pois nem todo mundo conseguiria seguir as orientações de segurança."
Os desafios de infraestrutura em si eram exorbitantes. "A configuração da infraestrutura para atender a uma necessidade específica em termos de armazenamento físico de dados e computação leva cerca de dois meses", diz Veeraraghavan. "Nesses meses, a tecnologia pode mudar e os protocolos também. Além disso, as atualizações na plataforma de sequenciamento significam que os sequenciadores podem dobrar seus resultados. Portanto, a demanda dobrou durante o tempo em que as necessidades de hardware foram planejadas e estimadas." A Baylor também queria que os cientistas pudessem compartilhar ferramentas entre os sistemas operacionais.
A sobrecarga computacional "pode acabar com um projeto", comenta Veeraraghavan. "É necessário ter a capacidade de operar em escala e armazenar quantidades imensas de dados. Precisávamos de outra solução ou o estudo do CHARGE teria se tornado proibitivamente dispendioso. Teria sido difícil ou impossível para nós obter os recursos computacionais de que precisávamos por conta própria."
Por que a Amazon Web Services
A Baylor precisava de uma solução econômica e de fácil manutenção para possibilitar o fornecimento de colaboração global segura e eficaz sem os atrasos causados pela configuração de uma infraestrutura física. “Não tínhamos meses para configurar uma infraestrutura, e precisávamos compartilhar os dados de forma eficiente, interativa e segura”, disse Veeraraghavan.
Além disso, a solução devia ter flexibilidade suficiente para padrões clínicos e requisitos da HIPAA. “Quando colocamos todas as informações na mesa, a DNAnexus e a Nuvem AWS foram a escolha natural.”
A Baylor decidiu formar uma parceria com a DNAnexus. Ela disponibiliza uma PaaS baseada em APIs que possibilita que empresas clínicas e de pesquisa migrem de modo eficiente e seguro seus pipelines e dados de análise para a Nuvem AWS. A DNAnexus permite que os clientes portem seus algoritmos proprietários para a nuvem junto a ferramentas reconhecidas pelo setor, além de recursos de referência, para criar fluxos de trabalho personalizados. A PaaS da DNAnexus foi desenvolvida totalmente na AWS, o que permitiu que ela escalasse seu sistema para mais de 20 mil núcleos computacionais simultâneos, 1 PB de armazenamento, milhões de horas de núcleo de análise e centenas de milhares de trabalhos de computação orquestrados na nuvem AWS. A AWS também disponibilizou à DNAnexus um Acordo de associado comercial (BAA), que permite que a DNAnexus ofereça a melhor segurança do setor e o cumprimento das leis de atendimento médico dos EUA e de outros países. Ao usar a AWS, os clientes podem criar e executar cargas de trabalho em conformidade com a HIPAA.
O projeto CHARGE usa o pipeline de análise da Baylor, o Mercury, para processar seus dados. O pipeline Mercury utiliza arquivos brutos do sequenciador e transforma esses dados no produto final: um arquivo de chamada variável anotado, que identifica mutações que podem ser significativas clinicamente. Posteriormente, os cientistas executam a análise terciária para abordar questões adicionais de pesquisa. Um pequeno grupo de pesquisadores está desenvolvendo ferramentas que analisam melhor a biologia de cada marcador genético para reprocessar os dados com novas descobertas sobre genes preditivos e protetores. Os pesquisadores podem comparar ferramentas diferentes e compartilhá-las entre fronteiras geográficas usando a plataforma da DNAnexus.
A DNAnexus usa o Amazon Simple Storage Service (Amazon S3) e o Amazon Glacier para armazenar mais de 1 PB de dados genômicos. A DNAnexus criou uma ferramenta de linha de comando que oferece a cientistas a opção de fazer o upload de dados de DNA diretamente do instrumento de sequenciamento para a nuvem, eliminando assim a necessidade de uma infraestrutura de armazenamento local dispendiosa. O próprio Amazon Elastic Compute Cloud (Amazon EC2) hospeda a análise de DNA. A DNAnexus desenvolveu um sistema de enfileiramento personalizado, operado em instâncias do Amazon EC2, que foi criado para administrar interrupções no processamento de dados.
Para otimizar custos, a DNAnexus usa instâncias reservadas do Amazon EC2 para seus serviços interativos, como o site, o portal de front-end do cliente e as ferramentas de visualização de DNA, como também para os serviços de nuvem de back-end e de gestão de trabalhos.
A Baylor e a DNAnexus protegem os dados do CHARGE ao controlar o acesso ao pipeline Mercury, usando as melhores práticas destacadas pela AWS. "Trabalhamos com informações médicas confidenciais sobre pessoas", diz Veeraraghavan. "Ao usar um pipeline e controlar o acesso a ele, é possível estruturar o ambiente de modo a minimizar os riscos." Os protocolos rigorosos de segurança da AWS permitem que a DNAnexus ofereça aos seus clientes os melhores padrões de segurança, conformidade e auditoria do setor de acordo com a HIPAA, o CLIA e outras medidas regulamentares complexas. Omar Serang, Diretor de nuvem da DNAnexus, comenta: "Podemos capacitar estudos clínicos de escala ultra grande que exigem uma infraestrutura computacional em um ambiente seguro e em conformidade em uma dimensão que antes não era possível obter".
Arquitetura do HGSC da Baylor na Nuvem AWS
Os benefícios
Depois de migrar para a AWS e a DNAnexus, a Baylor concluiu sua primeira análise em 10 dias, cinco vezes mais rápido do que usando a infraestrutura local, e pôde compartilhar as descobertas rapidamente. A análise exigiu 21 mil núcleos, uma instância extra-grande do Amazon EC2 e 16 núcleos virtuais. "A Nuvem AWS possibilita uma colaboração ágil, mesmo com centenas de terabytes de dados", comenta Veeraraghavan. "A capacidade de ter uma área central para as pessoas processarem esses dados reduz a largura de banda e a necessidade de comprar e manter amplos recursos computacionais."
Isso é bem diferente de como era nos dias em que a Baylor precisava enviar discos rígidos para ajudar na colaboração entre os cientistas. Ao usar a AWS e a DNAnexus, a Baylor e o CHARGE conseguiram disponibilizar a cientistas que usam sistemas diferentes um ambiente comum para compartilhar ferramentas de análise. "Qualquer cientista, esteja ele executando seu ambiente em um Mac, Linux ou Windows, pode executar qualquer ferramenta em todos os dados do CHARGE na DNAnexus", comenta Veeraraghavan. Andrew Carroll, Cientista chefe da DNAnexus para o CHARGE, acrescenta: "O uso da Nuvem AWS possibilita comparar ferramentas e entender o que funciona para o seu projeto ou não. A DNAnexus em execução na Nuvem AWS permite que os pesquisadores compartilhem o que aprenderam com a comunidade científica."
A escalabilidade da Nuvem AWS ajuda os cientistas do CHARGE a obter maior capacidade preditiva sobre as condições que estão estudando. Eles também podem identificar genes "protetores" que possivelmente ajudam a proteger uma pessoa de desenvolver uma condição, o que é possível fazer de modo rápido e seguro. "Esta é a definição do por que nós escolhemos a nuvem AWS", diz Carroll. "O CHARGE precisa ser executado com cargas de pico muito elevado durante o período mais curto possível para fazer o seu trabalho. O uso da Nuvem AWS permite à DNAnexus a flexibilidade para criar sua própria PaaS tendo como base a tecnologia da AWS. Escalamos o sistema da DNAnexus para recursos computacionais e de armazenamento físico de dados praticamente ilimitados."
Acima de tudo, o uso da DNAnexus e da AWS permitiu que os cientistas do CHARGE se concentrassem na ciência e não na infraestrutura. "Atualizar a infraestrutura para cada grande influxo previsto exige um investimento substancial, fora o espaço necessário", comenta Veeraraghavan. "Estes tipos de computação não são eventos únicos, eles continuam a crescer exponencialmente. Existem inúmeros tipos de limitações que impedem nossa capacidade de ampliar horizontes científicos. Mas agora, graças à AWS e à DNAnexus, podemos nos concentrar na ciência e não na infraestrutura."
Sobre a Baylor
A Faculdade de Medicina de Baylor em Houston, no Texas, abriga o Human Genome Sequencing Center (HGSC), um dos três centros de sequenciamento financiados pelo governo federal dos EUA.
Serviços da AWS usados
Amazon EC2
O Amazon Elastic Compute Cloud (Amazon EC2) é um web service que disponibiliza capacidade computacional segura e redimensionável na nuvem. Ele foi projetado para facilitar a computação em nuvem na escala da web para os desenvolvedores.
Amazon S3
O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos que oferece escalabilidade líder do setor, disponibilidade de dados, segurança e desempenho.
Saiba mais »
Amazon Glacier
O Amazon S3 Glacier e o S3 Glacier Deep Archive são classes de armazenamento em nuvem do Amazon S3 seguro, resiliente e de custo extremamente baixo para arquivamento de dados e backups de longa duração.
Saiba mais »
Comece a usar
Empresas de todos os portes em todos os setores estão transformando seus negócios diariamente usando a AWS. Entre em contato com nossos especialistas e inicie sua própria jornada para a Nuvem AWS hoje mesmo.