Estas orientações ajudam os usuários a preparar dados genômicos, clínicos, de mutação, de expressão e de imagem para realizar análises em grande escala e consultas interativas em um data lake. Contêm infraestrutura como automação de código, bem como pipelines de ingestão para transformar os dados e cadernos e painéis para análise interativa. Esta orientação foi construída em colaboração com a Bioteam.
Diagrama da arquitetura
-
Arquitetura
-
CI/CD
-
Arquitetura
-
Baixe o PDF Veja o código-fonte
Aviso de isenção de responsabilidade: Não se destina ao uso em produção
Detalhes
- Ingerir, formatar e catalogar dados do Programa The Cancer Genome Atlas (TCGA). Os dados brutos são extraídos do Registry of Open Data on AWS (RODA) por meio da API TCGA. Os dados são transformados em um trabalho Extract Transform and Load (ETL – Extrair, transformar e carregar) e catalogado do AWS Glue por um crawler do Glue. Isso torna os dados disponíveis para consulta no Amazon Athena.
- Os dados do The Cancer Imaging Archive (TCIA) são ingeridos, formatados e catalogados. Os dados são transformados em um trabalho de ETL do AWS Glue e catalogados por um crawler do Glue.
- Os dados do projeto 1000 Genomes e do ClinVar são ingeridos, formatados e catalogados, extraindo os dados brutos do RODA no Amazon Simple Storage Service (Amazon S3). Os conjuntos de dados são transformados em trabalhos ETL do AWS Glue e catalogados pelos crawlers do Glue.
- Os cientistas de pesquisa analisam os dados multimodais por meio de uma interface visual no Amazon QuickSight. Os dados são armazenados em cache em um banco de dados Super-fast, Parallel, In-memory Calculation Engine (SPICE – Mecanismo de cálculo super-rápido, paralelo e na memória), otimizando a performance da consulta.
- Os cientistas de dados analisam os dados com código usando cadernos Jupyter fornecidos pelos ambientes de cadernos do Amazon SageMaker.
-
CI/CD
-
Baixe o PDF Veja o código-fonte
Aviso de isenção de responsabilidade: Não se destina ao uso em produção
Detalhes
- Cria um projeto do AWS CodeBuild contendo o script setup.sh. Este script cria o restante das pilhas, repositórios de código e código do AWS CloudFormation.
- A pilha da zona de pouso (zone) cria o repositório pipe do AWS CodeCommit. Depois que a pilha da zona de pouso (zone) concluir sua configuração, o script setup.sh enviará o código-fonte para o repositório pipe do CodeCommit.
- A pilha do pipeline de implantação (pipe) cria o repositório code do CodeCommit, um evento do Amazon CloudWatch e o pipeline code do AWS CodePipeline. Depois que a pilha de pipeline de implantação (pipe) concluir sua configuração, o script setup.sh enviará o código-fonte ao repositório code do CodeCommit.
- O pipeline do CodePipeline (code) implanta as pilha de base de código (genomic e imaging) do CloudFormation. Quando os pipelines do AWS CodePipeline concluírem sua configuração, os recursos implantados na sua conta incluirão buckets do Amazon Simple Storage Service (Amazon S3) para armazenar logs de acesso a objetos, artefatos de compilações e dados em seu data lake, repositórios do CodeCommit para código-fonte; um projeto do AWS CodeBuild para construção artefatos de código, um pipeline do AWS CodePipeline para automatizar compilações e a implantação de recursos (por exemplo, trabalhos, crawlers e um catálogo de dados do AWS Glue), bem como uma instância de cadernos Jupyter do Amazon SageMaker.
- A pilha de imagens cria um hiperlink para um quick start do CloudFormation, que pode ser iniciado para implantar a pilha do Amazon QuickSight (quicksight).. A pilha do QuickSight cria recursos do AWS Identity and Access Management (IAM) e do QuickSight necessários para explorar interativamente o conjunto de dados multiômico.
Pilares do AWS Well-Architected
-
Excelência operacional
Esta orientação utiliza o AWS CodeBuild e o AWS CodePipeline para compilar, empacotar e implantar tudo o que é necessário na solução para transformar Variant Call Files (VCFs – Arquivos de chamadas variantes) com Hail e trabalhar com dados multimodais e multiômicos dos conjuntos de dados no The Cancer Genome Atlas (TCGA) e The Cancer Imaging Atlas (TCIA). Alterações de código feitas no repositório da solução AWS CodeCommit serão implantadas por meio do pipeline de implantação do CodePipeline fornecido.
-
Segurança
Esta orientação usa acesso baseado em função com IAM e todos os buckets têm criptografia habilitada, são privados e bloqueiam o acesso público. O catálogo de dados no AWS Glue tem criptografia habilitada e todos os metadados gravados pelo AWS Glue no Amazon S3 são criptografados. Todas as funções são definidas com privilégio mínimo e todas as comunicações entre os serviços permanecem na conta do cliente. Os administradores podem controlar o caderno Jupyter e o acesso aos dados do Amazon Athena e do Amazon QuickSight por meio dos perfis do IAM fornecidos.
-
Confiabilidade
O AWS Glue, o Amazon S3 e o Amazon Athena têm tecnologia sem servidor e escalarão a performance do acesso a dados à medida que o volume de dados aumentar. O AWS Glue provisiona, configura e dimensiona os recursos necessários para executar seus trabalhos de integração de dados e o Amazon Athena conta com tecnologia sem servidor, para que você possa consultar rapidamente seus dados sem precisar configurar e gerenciar servidores ou data warehouses. O armazenamento Amazon QuickSight SPICE na memória dimensionará sua exploração de dados para milhares de usuários.
-
Eficiência de performance
Ao usar tecnologias sem servidor, você provisiona apenas os recursos exatos que usa. Cada trabalho do AWS Glue provisionará um cluster Spark sob demanda para transformar dados e desprovisionará os recursos ao terminar. Se você optar por adicionar novos conjuntos de dados TCGA, poderá adicionar novos trabalhos e crawlers do AWS Glue que também preveem recursos sob demanda. O Amazon Athena executa automaticamente as consultas em paralelo, disponibilizando a maioria dos resultados em segundos.
-
Otimização de custos
Ao usar tecnologias sem servidor que podem ser dimensionadas sob demanda, você paga apenas pelos recursos que usa. Para otimizar ainda mais os custos, você pode interromper os ambientes de caderno no Amazon SageMaker quando não estão em uso. O painel do Amazon QuickSight também é implantado por meio de um modelo do AWS CloudFormation, portanto, se você não pretende usar o painel de visualização, pode optar por não implantá-lo para economizar custos.
-
Sustentabilidade
Ao usar amplamente os serviços gerenciados e a escalabilidade dinâmica, você minimiza o impacto ambiental dos serviços de back-end. Um componente essencial para a sustentabilidade é maximizar o uso de instâncias de servidor de cadernos, conforme abordado nos pilares de performance e custo. Interrompa os ambientes de caderno quando não estiverem em uso.
Considerações adicionais
Essa arquitetura escolheu o AWS Glue para o processo de extração, transformação e carregamento (ETL) necessário para ingerir, preparar e catalogar os conjuntos de dados na solução para favorecer a consulta e a performance. Você pode adicionar novos trabalhos do AWS Glue e crawlers do Glue para ingerir os novos conjuntos de dados The Cancer Genome Atlas (TCGA) e The Cancer Image Atlas (TCIA), conforme necessário. Você também pode adicionar novos trabalhos e crawlers para ingerir, preparar e catalogar seus próprios conjuntos de dados proprietários.
Essa arquitetura escolheu os cadernos Amazon SageMaker para fornecer um ambiente de caderno Jupyter para análise. Você pode adicionar novos cadernos ao ambiente existente ou criar novos ambientes. Se você preferir cadernos RStudio em vez de Jupyter, você pode usar o RStudio no Amazon SageMaker.
Essa arquitetura escolheu o Amazon QuickSight para fornecer painéis interativos para visualização e exploração de dados. A configuração do painel do QuickSight é feita por meio de um modelo do AWS CloudFormation, portanto, se você não pretende usar o painel, não precisará provisioná-lo. No QuickSight, você pode criar sua própria análise, explorar filtros ou visualizações adicionais e compartilhar conjuntos de dados e análises com colegas.
Instruções de uso
Esse repositório cria um ambiente escalável na AWS para preparar dados genômicos, clínicos, de mutação, de expressão e de imagem para realizar análises em grande escala e consultas interativas em um data lake. A solução demonstra como 1) compilar, empacotar e implantar bibliotecas usadas para conversão de dados genômicos, 2) provisionar pipelines de ingestão de dados com tecnologia sem servidor para preparar e catalogar dados multimodais, 3) visualizar e explorar dados clínicos por meio de uma interface interativa e 4 ) executar consultas analíticas interativas em um data lake multimodal.
Colaboradores
A BioTeam é uma empresa de consultoria de TI em ciências biológicas apaixonada por acelerar a descoberta científica, fechando a lacuna entre o que os cientistas querem fazer com os dados e o que eles podem fazer. Trabalhando na interseção de ciência, dados e tecnologia desde 2002, a BioTeam possui recursos interdisciplinares para aplicar estratégias, tecnologias avançadas e serviços de TI que solucionam os problemas de pesquisa, técnicos e operacionais mais desafiadores. Com a habilidade para transformar necessidades científicas em poderosos ecossistemas de dados científicos, temos orgulho de nossa capacidade de fazer parceria com uma ampla gama de líderes em pesquisa em ciências biológicas, de startups de biotecnologia às maiores empresas farmacêuticas globais, de agências do governo federal a instituições de pesquisa acadêmica.
Aviso de isenção de responsabilidade
O código de exemplo, as bibliotecas de software, as ferramentas de linha de comando, as provas de conceito, os modelos ou outra tecnologia relacionada (incluindo qualquer uma das anteriores fornecidas por nossa equipe) são fornecidos a você como Conteúdo da AWS nos termos do Contrato de Cliente da AWS ou o contrato por escrito pertinente entre você e a AWS (o que for aplicável). Você não deve usar esse Conteúdo da AWS em suas contas de produção, na produção ou em outros dados essenciais. Você é responsável por testar, proteger e otimizar o Conteúdo da AWS, como código de exemplo, conforme apropriado para uso em nível de produção com base em suas práticas e padrões específicos de controle de qualidade. A implantação de Conteúdo da AWS pode gerar cobranças da AWS para criar ou usar recursos cobráveis, como executar instâncias do Amazon EC2 ou usar armazenamento do Amazon S3.