[Subtítulo SEO]
Importante: Esta guía requiere el uso de AWS CodeCommit, que ya no está disponible para los nuevos clientes. Los clientes actuales de AWS CodeCommit pueden seguir usando e implementando esta guía con normalidad.
Esta orientación muestra cómo puede crear y ejecutar flujos de trabajo bioinformáticos de nivel de producción a escala. Al utilizar los servicios de AWS para la automatización, el análisis del flujo de trabajo, el almacenamiento y la observabilidad operativa y de costos, puede seguir las prácticas recomendadas de DevOps para administrar el ciclo de vida de sus flujos de trabajo bioinformáticos. Puede usar esta arquitectura como base para su propia infraestructura y actualizar ciertos aspectos según sea necesario para integrarla con su entorno y satisfacer sus necesidades.
Tenga en cuenta: [Descargo de responsabilidad]
Diagrama de la arquitectura
[Descripción del diagrama de arquitectura]
Paso 1
Transfiera los datos de secuencia a Amazon Simple Storage Service (Amazon S3) mediante AWS DataSync. Si los datos están en formato FASTQ, se pueden importar a un almacén de secuencias en AWS HealthOmics (sucesor de Amazon Omics) para ahorrar costos.
Paso 2
HealthOmics pone en marcha flujos de trabajo bioinformáticos en lenguajes como Workflow Description Language (WDL), Nextflow o Common Workflow Language (CWL) para analizar datos sin procesar. Estos flujos de trabajo se pueden crear como privados o como Ready2Run (alojados por HealthOmics).
Las herramientas que se ponen en marcha en los flujos de trabajo se almacenan como imágenes de Docker en Amazon Elastic Container Registry (Amazon ECR). Los resultados del flujo de trabajo se cargan en Amazon S3.
Paso 3
HealthOmics publica los registros del motor de flujo de trabajo, los registros de tareas y los registros de ejecución del flujo de trabajo en Amazon CloudWatch para la resolución de problemas y la supervisión.
Paso 4
HealthOmics publica eventos mediante Amazon EventBridge, que puede automatizar las acciones posteriores, como el uso de las funciones de AWS Lambda para lanzar más flujos de trabajo bioinformáticos o notificar a los usuarios o grupos sobre errores en los flujos de trabajo mediante Amazon Simple Notification Service (Amazon SNS).
Paso 5
Los metadatos útiles de los flujos de trabajo de HealthOmics, como el identificador de ejecución del flujo de trabajo, las etiquetas, el identificador de muestra y las ubicaciones de los archivos de salida del flujo de trabajo, se pueden rastrear en las tablas de Amazon DynamoDB. Un rastreador de AWS Glue incorpora estos datos al Catálogo de datos de AWS Glue, que se puede consultar con Amazon Athena.
Paso 6
Los desarrolladores de flujos de trabajo y los bioinformáticos pueden repetir los flujos de trabajo nuevos y existentes y mantener el control de versiones mediante la integración y la entrega continuas con AWS CodeCommit. AWS CodePipeline se puede utilizar para invocar un trabajo de AWS CodeBuild a fin de automatizar la creación de nuevos flujos de trabajo en HealthOmics.
Paso 7
Los informes de costo y uso de AWS (AWS CUR) facilitan la supervisión de los costos. Este servicio se puede configurar para crear informes y subirlos a un bucket de Amazon S3. Un rastreador de AWS Glue está configurado para incorporar estos datos al Catálogo de datos de AWS Glue, que se puede consultar con Amazon Athena para obtener información relacionada con los costos.
Pilares de Well-Architected
AWS Well-Architected Framework le permite comprender las ventajas y desventajas de las decisiones que tome durante la creación de sistemas en la nube. Los seis pilares de este marco permiten aprender las prácticas recomendadas arquitectónicas para diseñar y explotar sistemas confiables, seguros, eficientes, rentables y sostenibles. Con la Herramienta de AWS Well-Architected, que se encuentra disponible gratuitamente en la Consola de administración de AWS, puede revisar sus cargas de trabajo con respecto a estas prácticas recomendadas al responder a un conjunto de preguntas para cada pilar.
El diagrama de arquitectura mencionado es un ejemplo de una solución que se creó teniendo en cuenta las prácticas recomendadas de una buena arquitectura. Para tener completamente una buena arquitectura, debe seguir todas las prácticas recomendadas de buena arquitectura posibles.
-
Excelencia operativa
Esta guía utiliza AWS CodeCommit, AWS CodeBuild y AWS CodePipeline para crear un control de versiones y automatizar la creación y el despliegue del código fuente de su flujo de trabajo bioinformático. Además, DynamoDB le permite realizar un seguimiento de los archivos de salida de HealthOmics y ejecutar metadatos. Dado que esta guía utiliza las mejores prácticas de DevOps para administrar el código del flujo de trabajo y proporcionarle visibilidad de los metadatos de la ejecución del flujo de trabajo, puede realizar cambios graduales para lograr resultados precisos. Mediante el seguimiento de los metadatos de ejecución del flujo de trabajo, puede encontrar fácilmente el estado de ejecución del flujo de trabajo relevante y los archivos de salida para realizar informes posteriores o análisis científicos.
-
Seguridad
Esta guía proporciona el cifrado en reposo mediante AWS Key Management Service (AWS KMS) y el cifrado en tránsito para todo el tráfico de red mediante DataSync. Además, AWS Identity y Access Management (IAM) proporciona un control de acceso detallado sobre los datos potencialmente confidenciales, de modo que solo los usuarios autorizados pueden realizar acciones específicas para procesarlos y analizarlos.
-
Fiabilidad
Esta guía le permite organizar flujos de trabajo bioinformáticos intensivos desde el punto de vista computacional a escala mediante el uso de HealthOmics. Este servicio tiene determinadas service quotas, como la cantidad de CPU virtuales, para evitar el sobreaprovisionamiento accidental. Además, Amazon S3 y DynamoDB proporcionan alta disponibilidad con copias de seguridad integradas. Esta guía también utiliza EventBridge para capturar eventos, como errores, y Amazon SNS puede proporcionar notificaciones en tiempo real en respuesta para que pueda tomar las medidas adecuadas. Puede investigar rápidamente los eventos con Amazon CloudWatch, que proporciona registros detallados que le brindan visibilidad de sus flujos de trabajo y herramientas subyacentes de HealthOmics.
-
Eficiencia en el rendimiento
Esta guía le permite ejecutar flujos de trabajo simultáneos con diferentes configuraciones de CPU y memoria para tareas específicas. Puede solicitar recursos especificando las CPU, la memoria y el almacenamiento que necesita, y HealthOmics aprovisiona la infraestructura adecuada. Esto le ayuda a escalar en función de las necesidades de su empresa con los recursos adecuados.
-
Optimización de costos
Esta guía utiliza un almacén de secuencias de HealthOmics, que le permite almacenar y compartir archivos de datos genómicos a escala de petabytes de forma eficiente y a un bajo coste por gigabase, lo que supone un ahorro de costos adicional en comparación con Amazon S3. Además, puede usar AWS CUR para acceder a la información más detallada sobre los costos y el uso de AWS, identificar áreas de optimización y comprender las tendencias de su empresa en función de atributos como los proyectos, los departamentos o los usuarios.
-
Sostenibilidad
Esta guía utiliza servicios gestionados y sin servidor que lo ayudan a evitar el aprovisionamiento y la administración de su propia infraestructura, lo que le ayuda a minimizar el impacto ambiental de sus proyectos. HealthOmics aprovisiona los recursos solo cuando se solicita la ejecución de un flujo de trabajo y los reduce cuando se completa. Del mismo modo, Lambda le permite ejecutar tareas más pequeñas como funciones sin aprovisionar sus propios servidores.
Recursos de implementación
Se proporciona una guía detallada para experimentar y utilizar dentro de su cuenta de AWS. Se examina cada etapa de la creación de la guía, incluida la implementación, el uso y la limpieza, con el fin de prepararla para su implementación.
El código de muestra es un punto de partida. Está validado por el sector, es prescriptivo pero no definitivo, y le permite profundizar en su funcionamiento para que le sea más fácil empezar.
Contenido relacionado
Diseño de una arquitectura basada en eventos para los flujos de trabajo de bioinformática con AWS HealthOmics y Amazon EventBridge
Orientación para una malla de datos de laboratorio en AWS
Guía para la migración y el almacenamiento de datos de secuencias con AWS HealthOmics
Análisis de datos multimodales con los servicios AWS Health y machine learning de AWS
Proteja sus flujos de trabajo y datos genómicos con AWS HealthOmics
Descargo de responsabilidad
El código de muestra; las bibliotecas de software; las herramientas de línea de comandos; las pruebas de concepto; las plantillas; o cualquier otra tecnología relacionada (incluida cualquiera de las anteriores que proporcione nuestro personal) se brinda como contenido de AWS bajo el Contrato de cliente de AWS, o el contrato escrito pertinente entre usted y AWS (lo que sea aplicable). No debe utilizar este contenido de AWS en sus cuentas de producción, ni en producción ni en otros datos críticos. Es responsable de probar, proteger y optimizar el contenido de AWS, como el código de muestra, según corresponda para el uso de grado de producción en función de sus prácticas y estándares de control de calidad específicos. La implementación de contenido de AWS puede incurrir en cargos de AWS por crear o utilizar recursos con cargo de AWS, como ejecutar instancias de Amazon EC2 o utilizar el almacenamiento de Amazon S3.
Las referencias a servicios u organizaciones de terceros en esta Guía no implican un respaldo, patrocinio o afiliación entre Amazon o AWS y el tercero. La orientación de AWS es un punto de partida técnico, y puede personalizar su integración con servicios de terceros al implementar la arquitectura.