AWS HealthOmics facilite le stockage, l'interrogation et l'analyse des données génomiques, transcriptomiques et autres données omiques, ainsi que la génération d'informations à partir de ces données. Ce service simplifie et accélère le processus de stockage et d'analyse des informations multiomiques pour les applications cliniques et de recherche, afin de vous permettre de vous concentrer sur l'extraction d'informations plus détaillées à partir de vos données.

Avec le stockage AWS HealthOmics, vous pouvez stocker des pétaoctets de données omiques de manière efficace et rentable, favorisant ainsi des découvertes scientifiques à l'échelle de la population. Les flux de travail privés et Ready2Run d'AWS HealthOmics automatisent la mise en service et la mise à l'échelle de l'infrastructure de calcul, afin que vous puissiez exécuter des pipelines d'analyse bio-informatique à l'échelle de production et consacrer moins de temps à la gestion de l'infrastructure et plus de temps à la recherche. AWS HealthOmics est fourni avec un ensemble de flux de travail Ready2Run prédéfinis et facturés par exécution. Les analyses AWS HealthOmics simplifient la préparation des données omiques pour les analyses multimodales, ce qui vous permet de rassembler les données multiomiques et de dossier médical afin de proposer un traitement plus personnalisé et plus ciblé. Ces fonctionnalités sont également éligibles HIPAA.

Généralités

Stockage dédié

Le stockage AWS HealthOmics est compatible avec les formats de fichiers bio-informatiques tels que FASTQ, BAM et CRAM et vous permet de stocker, de découvrir et de partager ces données efficacement et à moindre coût. Ces formats de fichiers sont stockés sous la forme d'objets de jeux de lecture à l'intérieur d'un « stockage de séquences ». Vous pouvez également stocker des génomes de référence au format FASTA. Les données sont importées sous la forme d'objets immuables avec des identifiants uniques pour la prise en charge de charges de travail exigeant un contrôle strict de la provenance des données. L'accès aux différents objets de données, y compris aux références et aux objets de jeux de lecture, peut être contrôlé à l'aide de balises et de contrôles d'accès basés sur des attributs via AWS Identity and Access Management (IAM). Pour réduire les coûts de stockage à long terme, les objets de données qui n'ont pas été consultés au cours des 30 derniers jours sont automatiquement déplacés vers une classe de stockage d'archives. Les objets archivés peuvent être réactivés à tout moment avec un appel d'API.

Flux de travail bio-informatiques

AWS HealthOmics vous aide à exécuter des flux de travail bio-informatiques à grande échelle. Vous pouvez choisir les flux de travail Ready2Run ou utiliser vos propres flux de travail privés pour traiter vos données biologiques sans avoir à gérer l'infrastructure sous-jacente.

Les flux de travail Ready2Run sont des flux de travail prédéfinis conçus par des éditeurs de logiciels tiers de premier plan tels que Sentieon, Inc., NVIDIA et Element Biosciences, ainsi que des pipelines open source courants tels que le flux de travail des meilleures pratiques GATK du Broad Institute et AlphaFold pour la prédiction de la structure des protéines. Vous pouvez simplement utiliser les flux de travail Ready2Run pour traiter vos données sans avoir à gérer les outils logiciels ou les scripts de flux de travail. Les flux de travail Ready2Run sont payants par exécution avec un prix prédéterminé.

Les flux de travail privés vous permettent d'apporter vos propres scripts de flux de travail écrits en langage de description du flux de travail (WDL) ou en Nextflow, qui sont les deux langages de flux de travail les plus couramment utilisés. Vous pouvez exécuter ces flux de travail privés en une seule exécution, appelée exécution. Vous ne payez que pour ce que vous utilisez et êtes facturé séparément pour les types d'instances omiques et le stockage des exécutions. Toutes les tâches de votre flux de travail sont mappées à l'instance qui convient le mieux à ses ressources définies.

Analyse à grande échelle

AWS HealthOmics vous permet d'ingérer et de transformer rapidement des formats de données génomiques tels que (g)VCF, GFF3 et TSV/CSV en tables Apache Iceberg. Vous pouvez faire en sorte que les données génomiques soient accessibles au moyen de services d'analytique tels qu'Amazon Athena. Vous pouvez transformer les données de variant (données issues d'un seul échantillon) et les données d'annotation (informations connues sur les positions dans le génome). Vous pouvez contrôler l'accès aux stockages d'analytique avec AWS Lake Formation. Cela permet d'exécuter plus facilement des requêtes sur différentes sources de données, tout en mettant en œuvre des contrôles d'accès précis. Vous pouvez, par exemple, combiner en toute sécurité les données génomiques des individus avec leurs antécédents médicaux issus du service Amazon HealthLake (qui peut contenir les traitements antérieurs, les médicaments administrés et des rapports de laboratoire) pour offrir une médecine de précision.

Provenance des données et collaboration en la matière

Grâce à AWS HealthOmics, les chercheurs peuvent « taguer » plus facilement des collaborateurs, configurer leurs autorisations et partager avec eux des données de manière sécurisée. De cette façon, vos données omiques sont plus faciles à trouver, plus accessibles, plus interopérables et plus réutilisables (c'est ce que l'on appelle le principe « FAIR »). L'utilisation de métadonnées spécifiques au domaine vous permet d'associer des stockages de données AWS HealthOmics à d'autres données omiques et de soins de santé pour faciliter les analyses multiomiques et multimodales.

Sécurité, confidentialité et conformité

Éligible HIPAA

AWS HealthOmics est éligible HIPAA. Vous pouvez appliquer des contrôles basés sur des attributs pour définir une gouvernance et un accès précis aux données. Une capture de provenance et de journalisation complète est intégrée pour vous permettre de savoir quelles données ont été consultées, par qui et quand.