A Icahn School of Medicine no Mount Sinai na cidade de Nova York é um líder reconhecido internacionalmente nos setores de treinamento científico, pesquisas biomédicas e atendimento a pacientes. A instituição trabalha para expandir conhecimentos biomédicos, disponibilizando atendimento clínico especializado e atendendo à comunidade. Ao trabalhar em estreita colaboração com o Mount Sinai Hospital, a Icahn School of Medicine atende a uma das populações de pacientes mais diversas e complexas do mundo.

Os pesquisadores e médicos da Icahn School of Medicine estão tentando descobrir os segredos genéticos dos cânceres de mama e ovário. Os Drs. John A. Martignetti e Peter R. Dottino do Mount Sinai e seus colaboradores na Station X estão extraindo as mais de 2 mil sequências de DNA de tumores de mama e ovário e linhagem germinativa geradas pelo Cancer Genome Atlas Consortium (TCGA). O TCGA é um esforço abrangente e coordenado para acelerar nosso entendimento sobre a base molecular do câncer por meio da aplicação de tecnologias de análise genômica, que incluem o sequenciamento genômico em grande escala. O TCGA é um esforço conjunto do National Cancer Institute (NCI) e do National Human Genome Research Institute (NHGRI), dois dos 27 institutos e centros dos Institutos Nacionais da Saúde, do departamento de Saúde e Serviços Humanos dos Estados Unidos.

É um grande problema que exige uma capacidade computacional considerável, visto que os cientistas analisam mais de 100 TB de dados e, em seguida, elaboram novas hipóteses e reanalisam os dados. De todas as mulheres com um risco genético hereditário de desenvolver um dos dois tipos de câncer, as mutações da linhagem germinativa de BRCA1 ou 2 somavam cerca de metade. Os pesquisadores estão tentando descobrir as ligações genéticas perdidas nos indivíduos que não são portadores da mutação BRCA1/2.

Em colaboração com a Station X, os Drs. Martignetti e Dottino conseguiram solicitar a ajuda de um provedor de soluções que pudesse disponibilizar uma plataforma de análise sólida e segura para o trabalho. A Station X desenvolveu a GenePool™, uma plataforma de software genômico para cientistas e médicos que trabalham com dados genômicos humanos nos contextos clínicos e de fase inicial de pesquisa.

A obtenção de informações com base em terabytes de dados de genômica, e a garantia de que as informações estão seguras, exige uma plataforma flexível e de alto desempenho com armazenamento de big data e um rigoroso controle de acesso. Com certeza, é um trabalho para a computação em nuvem.

A Amazon Web Services (AWS) é a base da plataforma de genômica GenePool, da Station X, que pode alterar dinamicamente a escala para analisar dezenas de milhares de genomas em minutos. “A AWS é o local natural para criar ambientes de software”, afirmou Sandeep Sanga, vice-presidente da Station X. “Criamos o GenePool na AWS para oferecer aos pesquisadores um lugar para gerenciar e analisar grandes quantidades de dados. E escolhemos a AWS porque o número de serviços oferecido é muito competitivo.” O uso da AWS permitiu que a Station X se concentrasse no projeto da plataforma GenePool para ajudar pesquisadores a compreender dados sequenciados com rapidez e segurança.

Para os pesquisadores do Mount Sinai, manter os dados dos pacientes seguros é essencial. "Manter a confidencialidade dos pacientes é de fundamental importância para nós, especialmente com a quantidade enorme de dados gerada", diz Martignetti. "Nós levamos isso muito a sério. Mas, usando a AWS e a GenePool, atendemos aos padrões de confidencialidade exigidos." Ao usar a AWS, a Station X pode disponibilizar a pesquisadores pré-aprovados acesso aos dados com acesso controlado do The Cancer Genome Atlas, que permitem que usuários autorizados "mensurem e entendam as mutações somáticas e de linhagem germinativa em pacientes com câncer de mama ou ovário", diz Sanga.

O Mount Sinai usa o AWS Identity and Access Management (IAM) para autenticação de usuários, permitindo controle e gestão de acesso a contas usando listas de controle de acesso (ACL) da AWS para disponibilizar uma gestão segura e centralizada de usuários e credenciais. O Amazon Simple Notification Service (Amazon SNS) e o Amazon Simple Email Service (Amazon SES) disponibiliza serviços do sistema de mensagens de saída para administradores e usuários finais que exigem notificações e alertas.

O Elastic Load Balancing ajuda a Station X a garantir que exista uma arquitetura web e de APIs escalável, resiliente e segura no ambiente da Amazon VPC, isolando os armazenamentos de dados e as camadas intermediárias e impedindo a exposição da rede na Internet. "Ao isolar armazenamentos de dados e camadas intermediárias e impedir a exposição da rede na Internet, mantemos todos os servidores privados, garantindo um footprint de segurança radicalmente reduzido", comenta Sanga.

Os pesquisadores do Mount Sinai usam a Nuvem AWS para gerenciar e extrair informações importantes de montanhas de dados genômicos armazenados no Amazon Simple Storage Service (Amazon S3), com armazenamento adicional no Amazon Glacier.

A Station X usa o armazenamento do Amazon Elastic Block Store (Amazon EBS) para dados essenciais e de alto valor para permitir um sistema de armazenamento flexível e de alto desempenho capaz de distribuir grandes quantidades de dados pré-computados para análise genômica em tempo real.

O Amazon Elastic Compute Cloud (Amazon EC2) capacita modelos estatísticos integrados da GenePool, recursos de filtragem visual, alta integração com bancos de dados genômicos e de anotações clínicas e integração de apoio por meio de web services RESTful. "A natureza elástica do Amazon EC2 nos permite a execução de processamento e análise de dados importantes de modo escalável, econômico e dinâmico", comenta Sanga. O Mount Sinai usa o armazenamento dedicado do Amazon S3 para garantir que seus dados genômicos derivados de pacientes sejam armazenados de modo seguro e preparados para análise na GenePool. A Figura 1 ilustra a arquitetura do Mount Sinai.

mount-sinai-arch-diag

Figura 1. Arquitetura de pesquisa do Mount Sinai

Para garantir que os sistemas estejam operando de modo eficiente, a GenePool usa o Amazon CloudWatch para monitoramento. O Amazon ElastiCache disponibiliza um mecanismo centralizado de armazenamento em cache que permite que os resultados de análise de grandes conjuntos de dados sejam retornados rapidamente. "Os cientistas são capazes de responder a questões cruciais em minutos ou segundos, graças à plataforma de software genômico que criamos na AWS", diz Sanga.

Ao usar a AWS e a GenePool, os Drs. Martignetti e Dottino agora podem rapidamente extrair milhares de registros de pacientes dos projetos do The Cancer Genome Atlas e identificar anormalidades genéticas em vários novos genes candidatos que se encaixem em suas hipóteses científicas. Ao cruzar referências desses genes candidatos com outros dados genômicos, os Drs. Martignetti e Dottino puderam enriquecer a lista de genes candidatos com novos marcadores possíveis para cânceres hereditários de mama e ovário.

"Antes da Nuvem AWS, não havia uma maneira de analisar um conjunto de dados desta magnitude com nossos colaboradores externos", diz Martignetti. "Não seria possível explorar os dados de modo significativo, analisá-los e refiltrá-los. Tudo isso é essencial para os nossos esforços para encontrar as ligações perdidas."

"A criação da GenePool na AWS proporcionou à Station X a capacidade de armazenar conjuntos de dados para os nossos clientes genômicos translacionais e clínicos", comenta Sanga. "Obtivemos uma vantagem competitiva significativa usando a AWS: acesso rápido a dados, amplo armazenamento e capacidade computacional enorme", acrescenta. "Em se tratando de projetos de pesquisa como esse, nosso trabalho nunca acabará. Sempre haverá mais dados a analisar. Portanto, mesmo quando ajudamos pesquisadores a tirar conclusões científicas, sempre haverá algo mais a aprender. Usando a AWS, estamos preparados para o desafio."

Sem a capacidade de executar a análise de modo seguro na Nuvem AWS, os médicos do Mount Sinai não poderiam dar continuidade à pesquisa. "Usando a AWS, é possível armazenar arquivos de origem de modo seguro e econômico com durabilidade e acessibilidade significativas. Não seria possível conduzir nossa pesquisa sem ela", afirma Martignetti. "Mas, usando a AWS e a GenePool, esperamos descobrir mutações que provem ser as ligações perdidas que expliquem por que algumas mulheres têm um risco maior de desenvolver esses cânceres."

Para saber mais sobre genômica na nuvem, acesse a página de detalhes sobre genômica da AWS.