Baylor College of Medicine en Houston, Texas, alberga el Human Genome Sequencing Center (HGSC), uno de los tres centros de secuenciación fundados de manera federal en los Estados Unidos. Uno de los proyectos en los que HGSC está involucrado es el proyecto de investigación sobre corazón y envejecimiento en epidemiología genómica, Cohorts for Heart and Aging Research in Genomic Epidemiology (CHARGE), un agrupación de más de 200 científicos en 5 instituciones del mundo que están trabajando para identificar los genes que contribuyen al envejecimiento y las afecciones cardíacas. El proyecto CHARGE, que constituye un consorcio continuo, analiza muestras genéticas y datos de fenotipos de estudios exhaustivos en cohortes del National Heart, Lung, and Blood Institute (NHLBI) y estudios similares en Europa. CHARGE y Baylor College of Medicine están colaborando para realizar un seguimiento a varios de los participantes del estudio y procesarlos siguiendo el pipeline del análisis Mercury de Baylor para ayudar a los científicos a comprender mejor cómo la variación genética puede influenciar al momento de prevenir y tratar un ataque o una afección cardíaca. Baylor tiene 20 máquinas secuenciales que proveen unas 24 terabases de contenido por mes, aproximadamente 1 PB de datos sin procesar. Actualmente, el estudio tiene más de 14 000 participantes. La magnitud del recurso de los datos requiere soluciones de datos innovadoras.

DNAnexus ofrece administración de datos, análisis de datos de secuenciación de la próxima generación y colaboración segura para los investigadores y centros de secuenciación de ADN. Los servicios de DNAnexus se brindan a través de un sistema simple y unificado que escala para cumplir con las necesidades académicas o comerciales exclusivas de sus clientes. Este sistema unificado incluye una infraestructura bajo demanda para cálculos y almacenamiento, soporte para informática en la nube y bioinformática, y colaboración segura y compatible, entre otras características. La solución DNAnexus PaaS, que se construye en Amazon Web Services (AWS), se usa en instituciones académicas, laboratorios de investigación gubernamentales, empresas biofarmacéuticas y proveedores de pruebas de diagnóstico.

En el último siglo, una serie de estudios ha examinado a pacientes durante toda su vida a fin de determinar de qué manera las personas desarrollan ciertas afecciones o enfermedades. Con el desarrollo de las herramientas secuenciales de ADN, así como también la capacidad de administrar grandes grupos de datos, ahora los resultados de estos estudios se están analizando nuevamente como parte del proyecto CHARGE. Los científicos de CHARGE de todo el mundo están usando datos para investigar las causas y la prevención de la enfermedad.

No obstante, como los secuenciadores de ADN se volvieron más eficientes y las pruebas genómicas son más frecuentes, el volumen de datos a analizar se ha vuelto realmente masivo. Con más de 430 TB de datos en juego en el proyecto CHARGE, solamente el hecho de distribuir los datos a los científicos interesados hubiese sido un desafío. En el pasado, se hubiesen encriptado los discos duros con los datos y se hubiesen enviado por correo a los más de 200 científicos involucrados en el proyecto CHARGE, generando demoras al compartir la información y problemas con la seguridad de los datos. “Tener que haber enviado los discos duros a tantas personas hubiese sido una pesadilla logística”, dice Narayanan Veeraraghavan, el científico programador principal de Baylor. “Los datos se tendrían que haber encriptado en todos los puntos. Con tantos científicos manipulando tantos discos duros, habría muchos errores, ya que no todos podrían seguir las pautas de seguridad”.

Solamente los desafíos de infraestructura ya eran altos. “Lleva un par de meses armar la infraestructura para satisfacer una necesidad específica sobre almacenamiento de datos y cálculos”, agrega Veeraraghavan. “En esos meses, puede cambiar la tecnología y los protocolos, y las actualizaciones de una plataforma de secuenciación puede significar que los secuenciadores puedan duplicar su desempeño. Por este motivo, también la demanda se duplica en el tiempo que has tardado para planificar y calcular las necesidades de hardware”. Baylor también quería que los científicos pudieran compartir las herramientas en todos los sistemas operativos.

La carga computacional local" puede traer proyectos a sus pies”, dice Veeraraghavan. “Tenemos que poder funcionar a escala y almacenar cantidades inmensas de datos. Necesitábamos otra solución, de lo contrario, no se podría haber financiado el estudio CHARGE. Nos era imposible conseguir los recursos informáticos que necesitamos por nuestra cuenta”.

Baylor necesitaba una solución rentable y de fácil mantenimiento que le permitiera facilitar colaboraciones seguras y eficaces a nivel mundial sin los retrasos que implicaría la configuración de una infraestructura física. “No disponíamos de meses para configurar una infraestructura y necesitábamos poder compartir los datos de forma eficaz, interactiva y segura”, explica Veeraraghavan.

Además, la solución debía ser lo suficientemente flexible como para cumplir con las normas clínicas y los requisitos de HIPAA. “Una vez que pusimos todas las cartas sobre la mesa, la opción obvia era DNAnexus y la nube de AWS”.

Baylor decidió asociarse con DNAnexus, que proporciona una PaaS basada en API que permite a las empresas de investigación y clínicas trasladar de manera eficiente y segura sus pipelines de análisis y datos a la nube de AWS. DNAnexus permite a sus clientes trasladar sus algoritmos de propietarios a la nube junto con herramientas reconocidas en la industria y recursos de referencia para crear flujos de trabajo personalizados. La PaaS de DNAnexus está creada íntegramente en AWS, lo que permitió a DNAnexus escalar su sistema a más de 20 000 núcleos informáticos simultáneos, 1 PB de almacenamiento, millones de horas fijas de análisis y cientos de miles de trabajos informáticos orquestrados en la nube de AWS. AWS también ha proporcionado a DNAnexus un acuerdo de socios comerciales (BAA), que permite a DNAnexus ofrecer la mejor seguridad del mercado y el cumplimiento de las leyes sanitarias, tanto en los Estados Unidos como en el mundo. Con AWS, los clientes pueden crear y ejecutar las cargas de trabajo conforme la HIPAA.

El proyecto CHARGE usa el pipeline de análisis de Baylor, Mercury, para procesar sus datos. El pipeline Mercury consume archivos sin procesar del secuenciador y transforma esos datos en el producto final: un archivo de llamadas variable comentado, que identifica las mutaciones que pueden tener importancia clínica. Luego, los científicos realizan un análisis terciario para investigar preguntas adicionales de la investigación. Un pequeño grupo de investigadores está desarrollando herramientas que examinan más detalladamente la biología de cada marcador genético. Así, pueden volver a procesar los datos con los nuevos descubrimientos sobre los genes predictivos y protectores. Los investigadores pueden comparar las diferentes herramientas y compartirlas independientemente de los límites geográficos usando la plataforma DNAnexus.

DNAnexus utiliza Amazon Simple Storage Service (Amazon S3) y Amazon Glacier para almacenar más de 1 PB de datos genómicos. DNAnexus creó una herramienta de línea de comandos que da la opción a los científicos de subir datos de ADN directamente del instrumento de secuenciación a la nube. Así, se elimina la costosa necesidad de infraestructura de almacenamiento on-premise. La propia Amazon Elastic Compute Cloud (Amazon EC2) aloja el análisis del ADN. DNAnexus desarrolló un sistema de cola personalizado que funciona en las instancias Amazon EC2, que está diseñado para manejar interrupciones en el procesamiento de los datos.

Para optimizar los costes, DNAnexus usa instancias reservadas de Amazon EC2 para sus servicios interactivos, como su sitio web, su portal de front-end del cliente y las herramientas de visualización de ADN, así como también su nube de back-end y los servicios de administración de trabajos.

DNAnexus.arch

Figura 1. Arquitectura de HGSC de Baylor en la nube de AWS

Baylor y DNAnexus protegen los datos de CHARGE mediante el control del acceso al pipeline de Mercury, implementando las prácticas recomendadas que describe AWS. “Manejamos información médica sensible de personas”, comenta Veeraraghavan. “Al usar un pipeline y controlar su acceso, se puede diagramar un entorno y así reducir los riesgos”. Los rigurosos protocolos de seguridad en AWS permiten a DNAnexus ofrecer a sus clientes la mejor seguridad del mercado, el cumplimiento y estándares de auditoría conformes a la HIPAA, CLIA y otras medidas regulatorias complejas. Omar Serang, jefe de la nube de DNAnexus, opina: “Podemos realizar estudios clínicos de gran tamaño que requieren una infraestructura informática en un entorno seguro y compatible a una escala que nunca antes se había podido lograr”.

Después de migrar a AWS y DNAnexus, Baylor completó su primer análisis en 10 días, cinco veces más rápido que con la infraestructura local, y pudo compartir los resultados rápidamente. El análisis llevó 21 000 núcleos; una instancia Amazon EC2 XL tiene 16 núcleos virtuales. “La nube de AWS permite una colaboración fluida incluso con cientos de terabytes de datos”, explica Veeraraghavan. “La capacidad de tener un área central para las personas para procesar tales datos reduce el ancho de banda y la necesidad de comprar y mantener amplios recursos informáticos”.

Dista mucho de la época en que Baylor tenía que enviar discos duros para ayudar a los científicos a colaborar. Al usar AWS y DNAnexus, Baylor y CHARGE pudieron proveer a científicos utilizando diferentes sistemas con un entorno común para compartir herramientas de análisis. “Cualquier científico, ya sea que use Mac, Linux, o Windows, puede ejecutar cualquier herramienta con todos los datos de CHARGE en DNAnexus”, afirma Veeraraghavan. Andrew Carroll, jefe científico de DNAnexus de CHARGE, agrega: “Con la nube de AWS, es posible comparar herramientas y así comprender qué puede servir para un proyecto y qué no. DNAnexus en la nube de AWS permite a los investigadores compartir los descubrimientos con la comunidad científica”.

La escalabilidad de la nube de AWS ayuda a los científicos de CHARGE a estimar mejor las condiciones que están estudiando. También pueden identificar los genes “protectores” que puedan ayudar a prevenir que una persona desarrolle una afección, y pueden hacerlo de manera rápida y segura. “Esta es la razón por la cual uno quiere migrar a la nube de AWS”, afirma Carroll. “CHARGE necesita ejecutarse a cargas muy altas por un período de tiempo lo más corto posible para poder realizar bien el trabajo. Con la nube de AWS, DNAnexus tiene la flexibilidad de construir su propia PaaS sobre la tecnología de AWS. Podemos escalar el sistema de DNAnexus para recursos de almacenamiento de datos y cálculos prácticamente ilimitados”.

Principalmente, el uso de DNAnexus y AWS ha permitido a los científicos de CHARGE centrarse en la ciencia, no en la infraestructura. “Actualizar su infraestructura para cada ingreso grande que vea llegar requiere una inversión sustancial, ni hablar del espacio”, explica Veeraraghavan. “Estos tipos de cómputos tampoco ocurren una sola vez, continúan creciendo exponencialmente. Existe todo tipo de limitaciones en nuestra capacidad de buscar los horizontes de la ciencia. Pero ahora, gracias a AWS y DNAnexus, podemos centrarnos en la ciencia en vez de en la infraestructura”.

Para obtener más información acerca de genómica en la nube, visite la página de Genómica en la nube de AWS.