Esta orientación ayuda a los usuarios a preparar los datos genómicos, clínicos, de mutaciones, de expresión y de imágenes para el análisis a gran escala y a realizar consultas interactivas contra un lago de datos. Incluye la automatización de la infraestructura como código, así como una canalización de ingesta a fin de transformar los datos, cuadernos y paneles para el análisis interactivo. Esta guía se creó en colaboración con Bioteam.

Diagrama de la arquitectura

Pilares de Well-Architected

  • En esta guía, se utilizan AWS CodeBuild y AWS CodePipeline para compilar, empaquetar e implementar todo lo necesario en la solución a fin de transformar archivos de llamadas de variantes (VCF) con Hail y trabajar con datos multimodales y multiómicos de los conjuntos de datos de El Atlas del Genoma del Cáncer (TCGA) y The Cancer Imaging Atlas (TCIA). Los cambios de código que se realicen en el repositorio de AWS CodeCommit de la solución se implementarán a través de la canalización de implementación de CodePipeline proporcionada.

  • En esta guía, se utiliza el acceso que se basa en roles con IAM y todos los buckets tienen el cifrado habilitado, son privados y bloquean el acceso público. El catálogo de datos en AWS Glue cuenta con el cifrado habilitado y todos los metadatos escritos por AWS Glue en Amazon S3 se encuentran cifrados. Todos los roles se definen con privilegios mínimos y todas las comunicaciones entre servicios permanecen en la cuenta del cliente. Los administradores pueden controlar el cuaderno de Jupyter y el acceso a los datos de Amazon Athena y Amazon QuickSight a través de los roles de IAM proporcionados.

  • AWS Glue, Amazon S3 y Amazon Athena no tienen servidor y escalarán el rendimiento del acceso a los datos a medida que aumente su volumen de datos. AWS Glue aprovisiona, configura y escala los recursos necesarios para ejecutar sus trabajos de integración de datos y Amazon Athena no tiene servidor, por lo que puede consultar con rapidez sus datos sin tener que configurar ni administrar servidores o almacenamientos de datos. El almacenamiento en memoria SPICE de Amazon QuickSight escalará su exploración de datos a miles de usuarios.

  • Mediante el uso de tecnologías sin servidor, solo aprovisiona los recursos exactos que utiliza. Cada trabajo de AWS Glue aprovisionará un clúster de Spark bajo demanda para transformar los datos y desaprovisionar los recursos cuando termine. Si elige agregar conjuntos de datos de TCGA nuevos, puede agregar trabajos de AWS Glue y rastreadores de AWS Glue nuevos que también predicen recursos bajo demanda. Amazon Athena ejecuta consultas de manera simultánea automáticamente, por lo que la mayoría de los resultados se obtiene en cuestión de segundos.

  • Mediante el uso de tecnologías sin servidor que escalan bajo demanda, solo paga por los recursos que utiliza. Para optimizar aún más los costos, puede detener los entornos de cuadernos en Amazon SageMaker cuando no se utilicen. El panel de Amazon QuickSight también se implementa a través de una plantilla de AWS CloudFormation separada, por lo que si no tiene la intención de utilizar el panel de visualización, puede optar por no implementarlo a fin de ahorrar costos.

  • Al utilizar ampliamente los servicios administrados y el escalado dinámico, minimiza el impacto ambiental de los servicios de backend. Un componente fundamental para la sostenibilidad es maximizar el uso de instancias de servidores de cuadernos, como se explica en los pilares de rendimiento y costo. Detenga los entornos de cuadernos cuando no se utilicen.


Consideraciones adicionales

Transformación de datos

En esta arquitectura se eligió AWS Glue para el proceso de extracción, transformación y carga (ETL) necesario a fin de ingerir, preparar y catalogar los conjuntos de datos en la solución para consultas y rendimiento. Puede agregar trabajos de AWS Glue y rastreadores de Glue nuevos para ingerir conjuntos de datos nuevos de El Atlas del Genoma del Cáncer (TCGA) y The Cancer Image Atlas (TCIA), según sea necesario. También puede agregar trabajos y rastreadores nuevos para ingerir, preparar y catalogar sus propios conjuntos de datos.

Análisis de datos

En esta arquitectura, se eligieron los cuadernos de Amazon SageMaker a fin de proporcionar un entorno de cuaderno de Jupyter para el análisis. Puede agregar cuadernos nuevos al entorno existente o crear entornos nuevos. Si prefiere RStudio a los cuadernos de Jupyter, puede utilizar RStudio en Amazon SageMaker.

Visualización de datos

En esta arquitectura, se eligió Amazon QuickSight a fin de proporcionar paneles interactivos para la visualización y exploración de datos. La configuración del panel de QuickSight se realiza a través de una plantilla de AWS CloudFormation separada, por lo que si no tiene la intención de utilizar el panel, no es necesario que lo aprovisione. En QuickSight, puede crear su propio análisis, explorar filtros o visualizaciones adicionales y compartir conjuntos de datos y análisis con colegas.

Instrucciones de uso

Este repositorio crea un entorno escalable en AWS a fin de preparar datos genómicos, clínicos, de mutaciones, de expresión y de imágenes para el análisis a gran escala y realizar consultas interactivas en un lago de datos. La solución demuestra cómo 1) crear, empaquetar e implementar bibliotecas que se utilizan para la conversión de datos genómicos, 2) aprovisionar canalizaciones de ingesta de datos sin servidor para la preparación y catalogación de datos multimodales, 3) visualizar y explorar datos clínicos a través de una interfaz interactiva y 4) ejecutar consultas analíticas interactivas en un lago de datos multimodal.

Colaboradores

BioTeam es una empresa de consultoría de TI en ciencias biológicas apasionada por acelerar el descubrimiento científico al cerrar la brecha entre lo que los científicos quieren hacer con los datos y lo que pueden hacer. Al trabajar en la intersección de la ciencia, los datos y la tecnología desde 2002, BioTeam tiene las capacidades interdisciplinarias para aplicar estrategias, tecnologías avanzadas y servicios de TI que resuelven los problemas operativos, técnicos y de investigación más desafiantes. Expertos en convertir las necesidades científicas en poderosos ecosistemas de datos científicos, nos enorgullecemos de nuestra capacidad para asociarnos con una amplia gama de líderes en la investigación de las ciencias biológicas, desde empresas emergentes de biotecnología hasta las empresas farmacéuticas más grandes del mundo, desde agencias gubernamentales federales hasta instituciones académicas de investigación.

Descargo de responsabilidad

El código de muestra; las bibliotecas de software; las herramientas de línea de comandos; las pruebas de concepto; las plantillas; o cualquier otra tecnología relacionada (incluida cualquiera de las anteriores que proporcione nuestro personal) se brinda como contenido de AWS bajo el Contrato de cliente de AWS, o el contrato escrito pertinente entre usted y AWS (lo que sea aplicable). No debe utilizar este contenido de AWS en sus cuentas de producción, ni en producción ni en otros datos críticos. Es responsable de probar, proteger y optimizar el contenido de AWS, como el código de muestra, según corresponda para el uso de grado de producción en función de sus prácticas y estándares de control de calidad específicos. La implementación de contenido de AWS puede incurrir en cargos de AWS por crear o utilizar recursos con cargo de AWS, como ejecutar instancias de Amazon EC2 o utilizar el almacenamiento de Amazon S3.