Estas orientações ajudam os usuários a preparar dados genômicos, clínicos, de mutação, de expressão e de imagem para realizar análises em grande escala e consultas interativas em um data lake. Elas incluem automação de infraestrutura como código (IaC), integração e entrega contínuas (CI/CD) para rápida iteração, pipeline de ingestão para armazenar e transformar dados, além de blocos de anotações e painéis para análises interativas. Também demonstramos como os dados de anotações e variantes genômicas são armazenados e consultados com o Amazon Omics, Amazon Athena e blocos de anotações do Amazon SageMaker. Essas orientações foram elaboradas em colaboração com a Bioteam

Diagrama de arquitetura

  • Arquitetura
  • Guidance Architecture Diagram for Multi-Omics and Multi-Modal Data Integration and Analysis on AWS - Architecture
  • CI/CD
  • Guidance Architecture Diagram for Multi-Omics and Multi-Modal Data Integration and Analysis on AWS - CI/CD

Pilares do Well-Architected

O AWS Well-Architected Framework ajuda a entender as vantagens e as desvantagens das decisões tomadas durante a criação de sistemas na nuvem. Os seis pilares do Framework permitem que você aprenda as melhores práticas de arquitetura, a fim de projetar e operar sistemas confiáveis, seguros, eficientes, econômicos e sustentáveis. Com a Ferramenta AWS Well-Architected, disponível gratuitamente no Console de Gerenciamento da AWS, você pode avaliar suas workloads em relação às práticas recomendadas ao responder a uma série de questões para cada pilar.

O diagrama de arquitetura acima exemplifica a criação de uma solução pautada nas melhores práticas do Well-Architected. Para ser totalmente Well-Architected, é preciso respeitar a maior quantidade possível das melhores práticas desse framework.

  • Estas orientações utilizam o CodeBuild e o CodePipeline para compilar, empacotar e implantar tudo o que é necessário na solução a fim de ingerir e armazenar Variant Call Files (VCFs) e trabalhar com dados multimodais e multiômicos dos conjuntos de dados no The Cancer Genome Atlas (TCGA) e The Cancer Imaging Atlas (TCIA). A análise e ingestão de dados genômicos com tecnologia sem servidor são demonstradas com o uso de um serviço totalmente gerenciado: o Amazon Omics. Alterações de código feitas no repositório do CodeCommit da solução são implantadas por meio do pipeline de implantação do CodePipeline fornecido. 

    Leia o whitepaper sobre excelência operacional 
  • Estas orientações usam acesso baseado em função com IAM. Todos os buckets têm criptografia habilitada, são privados e bloqueiam o acesso público. O catálogo de dados no AWS Glue tem criptografia habilitada e todos os metadados gravados pelo AWS Glue no Amazon S3 são criptografados. Todas as funções são definidas com privilégio mínimo e todas as comunicações entre os serviços permanecem na conta do cliente. Os administradores podem controlar o caderno Jupyter. O acesso aos dados de armazenamento de variantes do Amazon Omics e ao catálogo de dados do AWS Glue é totalmente gerenciado com o Lake Formation, e o acesso ao Athena, ao bloco de anotações do SageMaker e aos dados do Amazon QuickSight é gerenciado por perfis do IAM fornecidos. 

    Leia o whitepaper de segurança 
  • O AWS Glue, o Amazon S3, o Amazon Omics e o Athena têm tecnologia sem servidor e escalarão a performance do acesso a dados à medida que o volume destes aumentar. O AWS Glue provisiona, configura e escala os recursos necessários para executar seus trabalhos de integração dos dados. O Athena usa tecnologia sem servidor, assim você pode consultar rapidamente os dados, sem necessidade de configurar e gerenciar servidores ou data warehouses. O armazenamento QuickSight SPICE na memória dimensionará sua exploração de dados para milhares de usuários. 

    Leia o whitepaper sobre confiabilidade 
  • Ao usar tecnologias sem servidor, você provisiona apenas os recursos exatos que usa. Cada trabalho do AWS Glue provisionará um cluster Spark sob demanda para transformar dados e desprovisionará os recursos ao terminar. Se você optar por adicionar novos conjuntos de dados TCGA, poderá adicionar novos trabalhos e crawlers do AWS Glue, que também preveem recursos sob demanda. O Athena executa automaticamente as consultas em paralelo, disponibilizando a maioria dos resultados em segundos. O Amazon Omics otimiza a performance de consulta de variantes em escala ao transformar arquivos em Apache Parquet.

    Baixe o whitepaper sobre eficiência de performance 
  • Ao usar tecnologias sem servidor que podem ser escaladas sob demanda, você paga apenas pelos recursos que usa. Para otimizar ainda mais os custos, você pode interromper os ambientes de cadernos no SageMaker quando não estão em uso. O painel do QuickSight também é implantado por meio de um modelo do CloudFormation, portanto, se você não pretende usar o painel de visualização, pode optar por não implantá-lo para economizar custos. O Amazon Omics otimiza o custo do armazenamento de dados de variantes em escala. Os custos de consultas são determinados pela quantidade de dados verificados pelo Athena e podem ser otimizados ao se gravar consultas de acordo com essa quantidade.

    Baixe o whitepaper sobre otimização de custos 
  • Ao usar amplamente os serviços gerenciados e a escalabilidade dinâmica, você minimiza o impacto ambiental dos serviços de backend. Um componente essencial para a sustentabilidade é maximizar o uso de instâncias de servidor de blocos de anotações. Interrompa os ambientes de blocos de anotações quando não estiverem em uso. 

    Leia o whitepaper sobre sustentabilidade 

Considerações adicionais

Transformação de dados

Essa arquitetura escolheu o AWS Glue para o processo de extração, transformação e carregamento (ETL) necessário para ingerir, preparar e catalogar os conjuntos de dados na solução para favorecer a consulta e a performance. Você pode adicionar novos trabalhos do AWS Glue e crawlers do AWS Glue para ingerir novos conjuntos de dados do The Cancer Genome Atlas (TCGA) e The Cancer Image Atlas (TCIA), conforme necessário. Você também pode adicionar novos trabalhos e crawlers para ingerir, preparar e catalogar seus próprios conjuntos de dados proprietários.

Análise de dados

Essa arquitetura escolheu os blocos de anotações do Amazon SageMaker para fornecer um ambiente de caderno Jupyter para análise. Você pode adicionar novos blocos de anotações ao ambiente existente ou criar novos ambientes. Se você preferir cadernos RStudio em vez de Jupyter, você pode usar o RStudio no Amazon SageMaker.

Visualização de dados

Essa arquitetura escolheu o QuickSight para fornecer painéis interativos para visualização e exploração de dados. A configuração do painel do QuickSight é feita por meio de um modelo do CloudFormation, portanto, caso não pretenda usar o painel, não precisará provisioná-lo. No QuickSight, você pode criar sua própria análise, explorar filtros ou visualizações adicionais e compartilhar conjuntos de dados e análises com colegas.

Recursos de implementação

Este repositório cria um ambiente escalável na AWS para preparar dados genômicos, clínicos, de mutação, de expressão e de imagem para realizar análises em grande escala e consultas interativas em um data lake. A solução demonstra como 1) usar os armazenamentos de variantes e de anotações do Amazon Omics para armazenar dados de anotações e de variantes genômicas, 2) provisionar pipelines de ingestão de dados com tecnologia sem servidor para preparar e catalogar dados multimodais, 3) visualizar e explorar dados clínicos por meio de uma interface interativa e 4 ) executar consultas analíticas interativas em um data lake multimodal com o Amazon Athena e o Amazon SageMaker.

Com sua conta da AWS, um guia detalhado é fornecido para experimentação e uso. Cada etapa da criação das orientações, incluindo implantação, uso e limpeza, é examinada para prepará-las para a implantação. 

O código de exemplo é um ponto de partida. Ele é validado para o setor, é prescritivo, mas não definitivo, e mostra o que há por trás de tudo para ajudar você a começar.

Orientação

Guidance for Multi-Modal Data Analysis with Health AI and ML Services on AWS

Esta orientação demonstra como configurar um framework completo para analisar dados multimodais de saúde e ciências biológicas (HCLS).

Colaboradores

A BioTeam é uma empresa de consultoria de TI em ciências biológicas apaixonada por acelerar a descoberta científica, fechando a lacuna entre o que os cientistas querem fazer com os dados e o que eles podem fazer. Trabalhando na interseção de ciência, dados e tecnologia desde 2002, a BioTeam possui recursos interdisciplinares para aplicar estratégias, tecnologias avançadas e serviços de TI que solucionam os problemas de pesquisa, técnicos e operacionais mais desafiadores. Com a habilidade para transformar necessidades científicas em poderosos ecossistemas de dados científicos, temos orgulho de nossa capacidade de fazer parceria com uma ampla gama de líderes em pesquisa em ciências biológicas, de startups de biotecnologia às maiores empresas farmacêuticas globais, de agências do governo federal a instituições de pesquisa acadêmica.

Aviso de isenção de responsabilidade

O código de exemplo, as bibliotecas de software, as ferramentas de linha de comando, as provas de conceito, os modelos ou outra tecnologia relacionada (incluindo qualquer uma das anteriores fornecidas por nossa equipe) são fornecidos a você como Conteúdo da AWS nos termos do Contrato de Cliente da AWS ou o contrato por escrito pertinente entre você e a AWS (o que for aplicável). Você não deve usar esse Conteúdo da AWS em suas contas de produção, na produção ou em outros dados essenciais. Você é responsável por testar, proteger e otimizar o Conteúdo da AWS, como código de exemplo, conforme apropriado para uso em nível de produção com base em suas práticas e padrões específicos de controle de qualidade. A implantação de Conteúdo da AWS pode gerar cobranças da AWS para criar ou usar recursos cobráveis, como executar instâncias do Amazon EC2 ou usar armazenamento do Amazon S3.