Estas orientações ajudam os usuários a preparar dados genômicos, clínicos, de mutação, de expressão e de imagem para realizar análises em grande escala e consultas interativas em um data lake. Contêm infraestrutura como automação de código, bem como pipelines de ingestão para transformar os dados e cadernos e painéis para análise interativa. Esta orientação foi construída em colaboração com a Bioteam.

Diagrama da arquitetura

Pilares do AWS Well-Architected


Considerações adicionais

Transformação de dados

Essa arquitetura escolheu o AWS Glue para o processo de extração, transformação e carregamento (ETL) necessário para ingerir, preparar e catalogar os conjuntos de dados na solução para favorecer a consulta e a performance. Você pode adicionar novos trabalhos do AWS Glue e crawlers do Glue para ingerir os novos conjuntos de dados The Cancer Genome Atlas (TCGA) e The Cancer Image Atlas (TCIA), conforme necessário. Você também pode adicionar novos trabalhos e crawlers para ingerir, preparar e catalogar seus próprios conjuntos de dados proprietários.

Análise de dados

Essa arquitetura escolheu os cadernos Amazon SageMaker para fornecer um ambiente de caderno Jupyter para análise. Você pode adicionar novos cadernos ao ambiente existente ou criar novos ambientes. Se você preferir cadernos RStudio em vez de Jupyter, você pode usar o RStudio no Amazon SageMaker.

Visualização de dados

Essa arquitetura escolheu o Amazon QuickSight para fornecer painéis interativos para visualização e exploração de dados. A configuração do painel do QuickSight é feita por meio de um modelo do AWS CloudFormation, portanto, se você não pretende usar o painel, não precisará provisioná-lo. No QuickSight, você pode criar sua própria análise, explorar filtros ou visualizações adicionais e compartilhar conjuntos de dados e análises com colegas.

Instruções de uso

Esse repositório cria um ambiente escalável na AWS para preparar dados genômicos, clínicos, de mutação, de expressão e de imagem para realizar análises em grande escala e consultas interativas em um data lake. A solução demonstra como 1) compilar, empacotar e implantar bibliotecas usadas para conversão de dados genômicos, 2) provisionar pipelines de ingestão de dados com tecnologia sem servidor para preparar e catalogar dados multimodais, 3) visualizar e explorar dados clínicos por meio de uma interface interativa e 4 ) executar consultas analíticas interativas em um data lake multimodal.

Colaboradores

A BioTeam é uma empresa de consultoria de TI em ciências biológicas apaixonada por acelerar a descoberta científica, fechando a lacuna entre o que os cientistas querem fazer com os dados e o que eles podem fazer. Trabalhando na interseção de ciência, dados e tecnologia desde 2002, a BioTeam possui recursos interdisciplinares para aplicar estratégias, tecnologias avançadas e serviços de TI que solucionam os problemas de pesquisa, técnicos e operacionais mais desafiadores. Com a habilidade para transformar necessidades científicas em poderosos ecossistemas de dados científicos, temos orgulho de nossa capacidade de fazer parceria com uma ampla gama de líderes em pesquisa em ciências biológicas, de startups de biotecnologia às maiores empresas farmacêuticas globais, de agências do governo federal a instituições de pesquisa acadêmica.

Aviso de isenção de responsabilidade

O código de exemplo, as bibliotecas de software, as ferramentas de linha de comando, as provas de conceito, os modelos ou outra tecnologia relacionada (incluindo qualquer uma das anteriores fornecidas por nossa equipe) são fornecidos a você como Conteúdo da AWS nos termos do Contrato de Cliente da AWS ou o contrato por escrito pertinente entre você e a AWS (o que for aplicável). Você não deve usar esse Conteúdo da AWS em suas contas de produção, na produção ou em outros dados essenciais. Você é responsável por testar, proteger e otimizar o Conteúdo da AWS, como código de exemplo, conforme apropriado para uso em nível de produção com base em suas práticas e padrões específicos de controle de qualidade. A implantação de Conteúdo da AWS pode gerar cobranças da AWS para criar ou usar recursos cobráveis, como executar instâncias do Amazon EC2 ou usar armazenamento do Amazon S3.