Características de AWS HealthOmics

AWS HealthOmics permite almacenar, consultar y analizar datos genómicos, transcriptómicos y otros datos ómicos con mayor facilidad y, de este modo, generar información a partir de dichos datos. Simplifica y acelera el proceso de almacenar y analizar la información multiómica para la investigación y las aplicaciones clínicas, gracias a lo cual es posible centrarse en obtener información más profunda a partir de los datos.

El almacenamiento de AWS HealthOmics permite almacenar petabytes de datos ómicos de manera eficiente y rentable, lo cual hace posible realizar descubrimientos científicos a escala poblacional. Los flujos de trabajo privados y Ready2Run de AWS HealthOmics automatizan el aprovisionamiento y el escalamiento de la infraestructura de computación, por lo que es posible ejecutar canalizaciones de análisis de biocomputación a escala de producción, y así dedicar menos tiempo a la administración de la infraestructura y más a la investigación. AWS HealthOmics incluye una colección de flujos de trabajo Ready2Run prediseñados y con un precio por ejecución. Los análisis de AWS HealthOmics simplifican la preparación de los datos ómicos para los análisis multimodales, con lo cual es posible combinar los datos multiómicos y de los registros de salud a fin de generar una terapia más específica y personalizada. Estas características también cumplen los requisitos de la HIPAA.

Aspectos generales

El almacenamiento de AWS HealthOmics es compatible con formatos de archivos de biocomputación, como FASTQ, BAM y CRAM. Además, permite almacenar, detectar y compartir estos datos de manera eficiente y a bajo costo. Estos formatos de archivo se almacenan como objetos de conjunto de lectura dentro de un almacén de secuencias. También se pueden almacenar genomas de referencia en formato FASTA. Los datos se importan como objetos inmutables con identificadores únicos para admitir las cargas de trabajo sujetas a requisitos estrictos de procedencia de los datos. El acceso a objetos de datos individuales, incluidas las referencias y los objetos de conjunto de lectura, se puede controlar mediante etiquetas y controles de acceso basados en atributos a través de AWS Identity and Access Management (IAM). Para reducir los costos de almacenamiento a largo plazo, los objetos de datos a los que no se ha accedido en 30 días se trasladan automáticamente a una clase de almacenamiento de archivo. Los objetos archivados se pueden reactivar en cualquier momento mediante una llamada a la API.

AWS HealthOmics ayuda a ejecutar flujos de trabajo de biocomputación a escala. Puede elegir flujos de trabajo Ready2Run o traer sus propios flujos de trabajo privados para procesar sus datos biológicos sin necesidad de administrar la infraestructura subyacente.

Los flujos de trabajo Ready2Run son flujos de trabajo prediseñados y diseñados por empresas de software de terceros líderes del sector, como Sentieon, Inc., NVIDIA y Element Biosciences, junto con canales de código abierto comunes, como el flujo de trabajo de prácticas recomendadas de GATK de Broad Institute y AlphaFold para la predicción de la estructura de las proteínas. Simplemente puede utilizar los flujos de trabajo Ready2Run para procesar sus datos sin necesidad de administrar las herramientas de software o los scripts de flujo de trabajo. Los flujos de trabajo Ready2Run son de pago por ejecución con un precio predeterminado.

Los flujos de trabajo privados le permiten traer sus propios scripts de flujo de trabajo que están escritos en el lenguaje de descripción del flujo de trabajo (WDL) o Nextflow, que son los dos lenguajes de flujo de trabajo más utilizados. Puede ejecutar estos flujos de trabajo privados con una sola operación, lo que se conoce como una ejecución. Para los flujos de trabajo privados, solo se paga por lo que se solicita y los tipos de instancias de Omics y el almacenamiento de las ejecuciones se facturan por separado. Todas las tareas del flujo de trabajo se asignan a la instancia que mejor se adapte en función de los recursos definidos.

Al utilizar AWS HealthOmics, puede ingerir rápidamente formatos de datos genómicos, como (g)VCF, GFF3 y TSV/CSV, así como convertirlos en tablas de Apache Iceberg. Puede conseguir que los datos genómicos sean accesibles a través de servicios de análisis como Amazon Athena. Puede transformar tanto datos de variantes (datos de una muestra individual) como datos de anotaciones (información conocida sobre posiciones en el genoma). Puede controlar el acceso a los almacenes de análisis con AWS Lake Formation, lo que facilita la realización de consultas respecto a diversos orígenes de datos mientras se implementan controles de acceso preciso. Por ejemplo, se pueden combinar de forma segura los datos del genoma de las personas con su historial médico disponible en Amazon HealthLake, que a su vez puede incluir tratamientos anteriores, medicamentos o informes de laboratorio, para así lograr una medicina de precisión.

AWS HealthOmics facilita la colaboración de los investigadores mediante el etiquetado, la configuración de permisos y el intercambio de datos de forma segura con los colaboradores. Esto simplifica la forma de hacer que los datos ómicos sean localizables, accesibles, interoperables y reutilizables (FAIR). Con los metadatos específicos del dominio, se pueden vincular los almacenes de datos de AWS HealthOmics con otros datos ómicos y de salud con el fin de facilitar los análisis multiómicos y multimodales. En cuanto a la procedencia de los datos, AWS HealthOmics archiva todos los metadatos de ejecución del flujo de trabajo en los registros de CloudWatch y le permite almacenar y consultar fácilmente esta información. Puede exportar esta información de CloudWatch a S3 para almacenarla a largo plazo. Esta información puede ayudarlo a realizar un seguimiento de qué algoritmos se usaron con sus datos de entrada para generar los datos de salida para sus requisitos de cumplimiento.

Seguridad, privacidad y cumplimiento

AWS HealthOmics cumple con los requisitos de la HIPAA. Puede aplicar controles basados en atributos para definir el acceso preciso a los datos y la gobernanza. Las funciones de registro completo y captura de la procedencia están integradas, de manera que se sabe a qué datos se ha accedido, quién ha accedido a estos y cuándo.