FAQ sur AWS HealthOmics

Questions d'ordre général

AWS HealthOmics est un service spécialement conçu pour aider les organismes de soins de santé et de sciences de la vie, ainsi que leurs partenaires logiciels, à stocker, interroger et analyser les données génomiques, transcriptomiques et autres données omiques, puis à générer des informations à partir de ces données afin d'améliorer la santé. Ce service soutient l'analyse à grande échelle et la recherche collaborative.

AWS HealthOmics fournit des flux de travail évolutifs et des outils intégrés pour la préparation et l'analyse des données omiques, et met automatiquement l'infrastructure sous-jacente en service et à l'échelle afin que vous puissiez consacrer plus de temps à la recherche et à l'innovation. AWS HealthOmics soutient l'analyse à grande échelle et la recherche collaborative.

AWS HealthOmics peut traiter des données directement à partir du service de stockage Amazon Simple Storage Service (S3) ou du stockage AWS HealthOmics à l'aide de flux de travail privés et Ready2Run d'AWS HealthOmics. Vous pouvez importer des données telles que des fichiers de séquences génomiques brutes, des fichiers de format d'appel de variantes et des jeux de données d'annotation depuis Amazon S3 vers des magasins de stockage et d'analytique AWS HealthOmics compatibles avec la bio-informatique. Vous pouvez contrôler l'accès aux magasins de variantes et d'annotations AWS HealthOmics à l'aide d'AWS Lake Formation et utiliser Amazon Athena afin de simplifier l'interrogation des données et les combiner avec d'autres formes de données, comme les dossiers médicaux d'Amazon HealthLake. Vous pouvez également utiliser Amazon Athena afin de simplifier l'interrogation des données et les combiner avec d'autres formes de données, comme les dossiers médicaux d'Amazon HealthLake. En outre, vous pouvez utiliser les données transformées dans Amazon QuickSight pour des analyses avancées. Vous pouvez également utiliser Amazon SageMaker pour créer, former et déployer de nouveaux algorithmes de machine learning sur vos données multiomiques et multimodales. Enfin, vous pouvez également utiliser Amazon EventBridge pour publier des événements dans le cadre de votre architecture axée sur les événements.

Nous disposons de deux types de stockages de données : l'un pour les données biologiques brutes et l'autre pour les données sur les variantes et les annotations. Le stockage AWS HealthOmics peut importer des génomes de référence au format FASTA et des fichiers compressés de séquences brutes aux formats FASTQ, BAM et CRAM. Les magasins d'analytique AWS HealthOmics peuvent importer des fichiers au format (g)VCF pour les données sur les variantes et des fichiers VCF, GFF et TSV/CSV pour les annotations génomiques. Les flux de travail AWS HealthOmics peuvent lire toutes les données prises en charge par la définition et l'outil de votre flux de travail défini à partir du stockage AWS HealthOmics ou Amazon S3.

Les flux de travail AWS HealthOmics prennent en charge les définitions de flux de travail conformes à la spécification WDL 1.1 ou Nextflow 22.04.0 DSL2. À l'heure actuelle, les outils référencés par les flux de travail doivent être encapsulés dans des conteneurs conformes à OCI et stockés dans un registre privé d'Amazon Elastic Container Registry (ECR). Les définitions de flux de travail doivent définir des résultats finaux spécifiques. Les résultats intermédiaires sont rejetés lorsqu'une exécution de flux de travail est terminée. La mise en cache des exécutions ou des tâches du flux de travail n'est pas prise en charge pour l'instant.

Les flux de travail privés vous permettent d'apporter vos propres scripts bioinformatiques écrits dans les langages de flux de travail les plus couramment utilisés. Vous pouvez exécuter ces flux de travail privés en une seule exécution, appelée exécution. Vous ne payez que pour ce que vous utilisez et êtes facturé séparément pour les types d'instances omiques et le stockage des exécutions. Toutes les tâches de votre flux de travail sont mappées à l'instance qui convient le mieux à ses ressources définies.

Les flux de travail Ready2Run sont des flux de travail prédéfinis qui ont été conçus par des éditeurs de logiciels tiers de premier plan tels que Sentieon, Inc., NVIDIA et Element Biosciences, ainsi que des pipelines open source courants tels que le flux de travail des meilleures pratiques GATK du Broad Institute et AlphaFold pour la prédiction de la structure des protéines. Vous pouvez simplement utiliser les flux de travail Ready2Run pour traiter vos données avec les flux de travail les plus couramment utilisés tels que Germline et GATK-8P. Les flux de travail Ready2Run sont payants par exécution avec un prix prédéterminé. Cela signifie que le même prix vous est facturé pour chaque flux de travail.

Confidentialité et sécurité

AWS HealthOmics est éligible HIPAA. Vous pouvez utiliser des contrôles d'accès basés sur les attributs afin de désigner les personnes ayant accès aux ressources AWS HealthOmics. Tout le stockage permanent prend en charge les clés gérées par le client. Les autorisations de ligne et de colonne sont également disponibles avec les magasins d'analytique AWS HealthOmics. Les API d'AWS HealthOmics sont intégrées à AWS CloudTrail et Amazon CloudWatch Logs afin de vous permettre de générer des pistes d'audit détaillées sur la provenance des données et les accès.

AWS HealthOmics est un service éligible HIPAA. Si vous stockez des données de santé protégées (PHI) sur AWS, vous êtes tenu d'avoir un BAA. Vous pouvez rapidement conclure un BAA en ligne à l'aide d'AWS Artifact.