Perguntas frequentes sobre o AWS HealthOmics

Geral

O AWS HealthOmics é um serviço especializado que ajuda as organizações de saúde e ciências biológicas e seus parceiros de software a armazenar, consultar e analisar dados genômicos, transcriptômicos e outros dados ômicos e depois a gerar insights com base nesses dados para melhorar a assistência médica. Ele auxilia na análise e a pesquisa colaborativa em grande escala.

O AWS HealthOmics fornece fluxos de trabalho escaláveis e ferramentas integradas para preparar e analisar dados ômicos, além de provisionas e escalar automaticamente a infraestrutura subjacente para que você possa dedicar mais tempo à pesquisa e à inovação. O AWS HealthOmics auxilia na análise e na pesquisa colaborativa em grande escala.

O AWS HealthOmics pode processar dados diretamente do Amazon Simple Storage Service (S3) ou do armazenamento do AWS HealthOmics usando fluxos de trabalho privados e Ready2Run do AWS HealthOmics. É possível importar dados como arquivos brutos de sequência genômica, arquivos no formato Variant Call Format e conjuntos de dados de anotação do Amazon S3 para armazenamentos de análise e armazenamento do AWS HealthOmics compatíveis com bioinformática. Você pode controlar o acesso aos armazenamentos de anotações e variantes do AWS HealthOmics usando o AWS Lake Formation e usar o Amazon Athena para facilitar a consulta de dados e a combinação com outras formas de dados, como prontuários médicos do Amazon HealthLake. Você também pode usar o Amazon Athena para facilitar a consulta e a combinação de dados com outros formatos de dados, como prontuários médicos do Amazon HealthLake. Além disso, você pode usar os dados transformados no Amazon QuickSight para análises avançadas. Também é possível usar o Amazon SageMaker para desenvolver, treinar e implantar algoritmos de machine learning inovadores em seus dados multiômicos e multimodais. Por fim, você também pode usar o Amazon EventBridge para publicar eventos como parte de sua arquitetura orientada por eventos.

Temos dois tipos de armazenamentos de dados, um para dados brutos e biológicos e outro para dados de variantes e de anotação. O AWS HealthOmics Storage pode importar genomas de referência no formato FASTA e arquivos brutos de sequência nos formatos FASTQ, BAM e CRAM compactados como gzip. Os repositórios de análise do AWS HealthOmics podem importar arquivos no formato (g)VCF para dados de variáveis e arquivos VCF, GFF e TSV/CSV para anotações genômicas. Os fluxos de trabalho do AWS HealthOmics podem ler todos os dados compatíveis com a definição e as ferramentas de fluxo de trabalho do armazenamento do AWS HealthOmics ou do Amazon S3.

Os fluxos de trabalho do AWS HealthOmics são compatíveis com definições de fluxo de trabalho em conformidade com a especificação WDL 1.1 ou Nextflow 22.04.0 DSL2. Atualmente, as ferramentas referenciadas por fluxos de trabalho devem ser encapsuladas em contêineres que estão em conformidade com a OCI e armazenadas em um registro privado no Amazon Elastic Container Registry (ECR). As definições de fluxo de trabalho devem estabelecer saídas finais específicas. Os resultados intermediários são descartados quando a execução de um fluxo de trabalho é concluída. No momento, não há suporte para o armazenamento em cache de execuções ou de tarefas de fluxo de trabalho.

Os fluxos de trabalho privados possibilitam que você traga os próprios scripts de bioinformática escritos nas duas linguagens de fluxo de trabalho mais usadas, WDL e Nextflow. É possível executar esses fluxos de trabalho privados com uma única realização, conhecida como execução. Para fluxos de trabalho privados, você paga somente pelo que solicita e a cobrança é efetuada separadamente para os tipos de instância ômica e para o armazenamento de execuções. Todas as tarefas em seu fluxo de trabalho são mapeadas para a instância mais adequada aos recursos definidos.

Os fluxos de trabalho Ready2Run são desenvolvidos previamente e foram projetados por empresas de softwares terceirizadas líderes do setor, como a Sentieon, Inc., a NVIDIA e a Element Biosciences, em conjunto com pipelines de código aberto conhecidos, como o fluxo de trabalho de práticas recomendadas do GATK fornecido pelo Broad Institute e pelo AlphaFold para a previsão da estrutura de proteínas. É possível usar fluxos de trabalho Ready2Run para processar os dados com os fluxos de trabalho mais usados, como Germline e GATK-8P do Broad Institute. Os fluxos de trabalho Ready2Run são pagos por execução com um preço predeterminado. Isso significa que você pagará o mesmo preço por cada fluxo de trabalho.

Privacidade e segurança

O AWS HealthOmics é qualificado pela HIPAA. Você pode usar controles de acesso baseados em atributos para definir quem tem acesso aos recursos do AWS HealthOmics. Todo armazenamento persistente é compatível com chaves gerenciadas pelo cliente. Permissões brutas e permissões de colunas também estão disponíveis com os armazenamentos de análise do AWS HealthOmics. As APIs do AWS HealthOmics são integradas com os logs do AWS CloudTrail e do Amazon CloudWatch para permitir que você gere uma proveniência de dados detalhada e acesse trilhas de auditoria.

O AWS HealthOmics é um serviço qualificado pela HIPAA. Se você estiver armazenando informações de saúde protegidas (PHI) na AWS, será necessário ter um BAA. Você pode obter rapidamente um BAA online usando o AWS Artifact.