Preguntas frecuentes sobre AWS HealthOmics

Aspectos generales

AWS HealthOmics es un servicio diseñado específicamente para ayudar a las organizaciones del sector de la atención médica y las ciencias biológicas, así como a sus socios de software, a almacenar, consultar y analizar datos genómicos, transcriptómicos y otros datos ómicos y, de este modo, generar información a partir de esos datos con el objetivo de mejorar la salud. Permite la realización de análisis a gran escala y la colaboración entre investigadores.

AWS HealthOmics proporciona flujos de trabajo escalables y herramientas integradas para preparar y analizar datos ómicos. Además, aprovisiona y escala automáticamente la infraestructura subyacente, con lo cual podrá dedicar más tiempo a la investigación y la innovación. AWS HealthOmics admite análisis a gran escala e investigación colaborativa.

AWS HealthOmics Omics puede procesar datos directamente desde Amazon Simple Storage Service (S3) o desde el almacenamiento de AWS HealthOmics utilizando los flujos de trabajo privados y Ready2Run de AWS HealthOmics. Puede importar datos, como archivos de secuencias genómicas sin procesar, archivos de formato de llamado de variantes y conjuntos de datos de anotaciones, desde Amazon S3 a almacenes de almacenamiento y análisis de AWS HealthOmics compatibles con la bioinformática. Puede controlar el acceso a los almacenes de variantes y anotaciones de AWS HealthOmics mediante AWS Lake Formation y utilizar Amazon Athena para que sea más fácil consultar los datos y combinarlos con otras formas de datos, como los registros médicos de Amazon HealthLake. También puede utilizar Amazon Athena para que sea más fácil consultar los datos y combinarlos con otras formas de datos, como los registros médicos de Amazon HealthLake. Además, puede utilizar los datos transformados en Amazon QuickSight para realizar análisis avanzados. También puede utilizar Amazon SageMaker para crear, entrenar e implementar nuevos algoritmos de machine learning respecto a los datos multiómicos y multimodales. Por último, también puede utilizar Amazon EventBridge para publicar eventos como parte de la arquitectura basada en eventos.

Contamos con dos tipos de almacenes de datos, uno para los datos biológicos sin procesar y otro para los datos de variantes y anotaciones. El almacenamiento de AWS HealthOmics puede importar genomas de referencia con formato FASTA y archivos de secuencia sin procesar con formato gzip FASTQ, BAM y CRAM. Los almacenes de análisis de AWS HealthOmics pueden importar archivos con formato (g)VCF para datos de variantes y archivos VCF, GFF y TSV/CSV para anotaciones genómicas. Los flujos de trabajo de AWS HealthOmics pueden leer cualquier dato compatible con la definición del flujo de trabajo y las herramientas definidas a partir del almacenamiento de AWS HealthOmics o de Amazon S3.

Los flujos de trabajo de AWS HealthOmics admiten definiciones de flujos de trabajo que cumplen con la especificación WDL 1.1 o Nextflow 22.04.0 DSL2. Actualmente, las herramientas a las que hacen referencia los flujos de trabajo se deben encapsular en contenedores que cumplan con la iniciativa de contenedores abiertos (OCI) y se almacenan en un registro privado de Amazon Elastic Container Registry (ECR). Las definiciones del flujo de trabajo deben definir resultados finales específicos: los resultados intermedios se descartan cuando se completa la ejecución del flujo de trabajo. Actualmente no es posible almacenar en caché las ejecuciones o tareas de los flujos de trabajo.

Los flujos de trabajo privados le permiten aportar sus propios scripts bioinformáticos escritos en los dos lenguajes de flujo de trabajo más utilizados, WDL y Nextflow. Puede ejecutar estos flujos de trabajo privados con una sola operación, lo que se conoce como una ejecución. Para los flujos de trabajo privados, solo se paga por lo que se solicita y los tipos de instancias de Omics y el almacenamiento de las ejecuciones se facturan por separado. Todas las tareas del flujo de trabajo se asignan a la instancia que mejor se adapte en función de los recursos definidos.

Los flujos de trabajo Ready2Run son flujos de trabajo prediseñados y diseñados por empresas de software de terceros líderes del sector, como Sentieon, Inc., NVIDIA y Element Biosciences, junto con canales de código abierto comunes, como el flujo de trabajo de prácticas recomendadas de GATK de Broad Institute y AlphaFold para la predicción de la estructura de las proteínas. Puede utilizar los flujos de trabajo Ready2Run para procesar sus datos con los flujos de trabajo más utilizados, como Germline y GATK-8P del Instituto Broad. Los flujos de trabajo Ready2Run son de pago por ejecución con un precio predeterminado. Esto significa que se le cobra el mismo precio por cada flujo de trabajo.

Privacidad y seguridad

AWS HealthOmics cumple con los requisitos de la HIPAA. Se pueden utilizar controles de acceso basados en atributos para definir quién tiene acceso a los recursos de AWS HealthOmics. Todo el almacenamiento persistente admite claves administradas por el cliente. Los permisos de filas y columnas también se encuentran disponibles con los almacenes de análisis de AWS HealthOmics. Las API de AWS HealthOmics se integran con AWS CloudTrail y los Registros de Amazon CloudWatch para lograr obtener una procedencia detallada de los datos y seguimientos de auditoría de acceso.

AWS HealthOmics es un servicio que cumple con los requisitos de la HIPAA. Si almacena información de salud protegida (PHI) en AWS, está obligado a suscribir un anexo para socios empresariales (BAA). Puede suscribir rápidamente un anexo para socios empresariales (BAA) en línea mediante AWS Artifact.