Amazon Omics facilite le stockage, l'interrogation et l'analyse des données génomiques, transcriptomiques et autres données omiques, ainsi que l'extraction d'informations à partir de ces données. Ce service simplifie et accélère le processus de stockage et d'analyse des informations multiomiques pour les applications cliniques et de recherche, de sorte que vous puissiez vous concentrer sur l'extraction d'informations plus détaillées à partir de vos données.

La fonction de stockage d'Amazon Omics vous permet de stocker des pétaoctets de données omiques de manière efficace et économique, ce qui permet de réaliser des découvertes scientifiques à l'échelle de la population. Les flux de travail Amazon Omics automatisent le provisionnement et le dimensionnement de l'infrastructure de calcul. Vous pourrez ainsi exécuter des pipelines d'analyse bio-informatique à l'échelle de production, et consacrer moins de temps à la gestion de l'infrastructure et davantage de temps à vos recherches. Les analyses Amazon Omics simplifient la préparation des données omiques pour les analyses multimodales, ce qui vous permet de rassembler les données multiomiques et de dossier médical afin de proposer un traitement plus personnalisé et plus ciblé. Ces fonctionnalités sont également éligibles HIPAA.

Généralités

Stockage dédié

Le stockage Amazon Omics est compatible avec les formats de fichiers bio-informatiques tels que FASTQ, BAM et CRAM, et vous permet de stocker, de découvrir et de partager ces données efficacement et à moindre coût. Ces formats de fichiers sont stockés sous la forme d'objets de jeux de lecture à l'intérieur d'un « stockage de séquences ». Vous pouvez également stocker des génomes de référence au format FASTA. Les données sont importées sous la forme d'objets immuables avec des identifiants uniques pour la prise en charge de charges de travail exigeant un contrôle strict de la provenance des données. L'accès aux différents objets de données, y compris aux références et aux objets de jeux de lecture, peut être contrôlé à l'aide de balises et de contrôles d'accès basés sur des attributs via AWS Identity and Access Management (IAM). Pour réduire les coûts de stockage à long terme, les objets de données qui n'ont pas été consultés au cours des 30 derniers jours sont automatiquement déplacés vers une classe de stockage d'archives. Les objets archivés peuvent être réactivés à tout moment avec un appel d'API.

Flux de travail bio-informatiques

Amazon Omics vous aide à exécuter des flux de travail bio-informatiques à grande échelle. Spécifiez la définition de votre flux de travail, les outils à utiliser ainsi que les données à analyser et laissez à Amazon Omics le soin de mettre en service l'infrastructure sous-jacente et de mettre en œuvre le flux de travail. Les définitions de flux de travail conformes aux spécifications WDL 1.1 et Nextflow 22.10.0 DSL2 sont prises en charge. Les flux de travail utilisent des outils en conteneur conformes à OCI stockés dans des registres privés d'Amazon Elastic Container Registry (ECR). Vous pouvez analyser les données provenant de compartiments S3 ou de stockages de séquences Amazon Omics. Vous pouvez contrôler les personnes autorisées à accéder à des flux de travail spécifiques, contrôler la quantité totale de ressources utilisées et gérer la priorité d'implémentation par le biais de groupes d'exécution de flux de travail.

Analyse à grande échelle

Amazon Omics vous permet d'ingérer et de transformer rapidement des formats de données génomiques tels que (g)VCF, GFF3 et TSV/CSV au format Apache Parquet. Vous pouvez faire en sorte que les données génomiques soient accessibles au moyen de services analytiques tels qu'Amazon Athena. Vous pouvez transformer les données de variant (données issues d'un seul échantillon) et les données d'annotation (informations connues sur les positions dans le génome). Vous pouvez contrôler l'accès aux stockages d'analytique avec AWS Lake Formation. Cela permet d'exécuter plus facilement des requêtes sur différentes sources de données, tout en mettant en œuvre des contrôles d'accès précis. Vous pouvez, par exemple, combiner en toute sécurité les données génomiques des individus avec leurs antécédents médicaux issus du service Amazon HealthLake (qui peut contenir les traitements antérieurs, les médicaments administrés et des rapports de laboratoire) pour offrir une médecine de précision.

Provenance des données et collaboration en la matière

Grâce à Amazon Omics, les chercheurs peuvent « taguer » plus facilement des collaborateurs, configurer leurs autorisations et partager avec eux des données de manière sécurisée. De cette façon, vos données omiques sont plus faciles à trouver, plus accessibles, plus interopérables et plus réutilisables (c'est ce que l'on appelle le principe « FAIR »). L'utilisation de métadonnées spécifiques au domaine vous permet d'associer des stockages de données Amazon Omics à d'autres données omiques et de soins de santé pour faciliter les analyses multiomiques et multimodales.

Sécurité, confidentialité et conformité

Éligible HIPAA

Amazon Omics est un service éligible HIPAA. Vous pouvez appliquer des contrôles basés sur des attributs pour définir une gouvernance et un accès précis aux données. Une capture de provenance et de journalisation complète est intégrée pour vous permettre de savoir quelles données ont été consultées, par qui et quand.