Nuestro análisis de lncRNA exige un alto nivel de integración y procesamiento informático. Gracias a AWS, podemos procesar rápidamente 1 000 nodos o más, lo que modifica el período del análisis de secuenciación genómica de semanas a días. 
Dr. Mitch Guttman Profesor adjunto, división de biología e ingeniería biológica

El laboratorio Guttman de biología de lncRNA del Instituto de Tecnología de California (Caltech) es un laboratorio de investigación dirigido por el renombrado científico Dr. Mitch Guttman. Encabeza un equipo de investigadores que estudia una nueva clase de genes llamados lncRNA, acrónimo de ARN largo no codificante. Con la ayuda de estrategias genómicas, la bioquímica, la biología molecular, la biología celular y la biología computacional, Guttman y su equipo están analizando de qué manera los lncRNA organizan las moléculas de ADN y las proteínas en la célula para controlar programas de expresión de genes precisos.

Cuando el Dr. Guttman ingresó a Caltech en 2013, quería asegurarse de que su equipo de investigación contara con un clúster de informática de alto desempeño (HPC) que fuese elástico y flexible. "Cuando pensábamos en un clúster para nuestro laboratorio, sabíamos que tenía que admitir niveles de demanda informática cambiantes", dice Guttman. "A veces, necesitamos 1 000 nodos informáticos, y otras veces, tan solo 10. Depende de la disponibilidad de datos y en qué etapa del proyecto de investigación nos encontramos. Además, la convergencia de varios proyectos de manera simultánea puede elevar la cifra aún más".

Sin embargo, el laboratorio no quería crear su propio clúster on-premise para satisfacer sus necesidades. "En California, el costo de electricidad y de inmuebles es uno de los más elevados del país, por lo que nos preocupaba el costo de crear nuestro propio clúster aquí", dice John Lilley, administrador principal, servicios y sistemas de administración de la información, Caltech. "Tampoco queríamos invertir nuestro tiempo en administrar y mantener el clúster".

Además, Guttman y su equipo querían asegurarse de poder administrar fácilmente las credenciales de acceso al clúster. "Queríamos poder activar y desactivar cuentas de usuarios del clúster a partir de una ubicación central, sin tener que preocuparnos por la pérdida de credenciales en cualquier máquina", dice Lilley.

Caltech ya había trasladado la totalidad de sus recursos web a la plataforma en la nube de Amazon Web Services (AWS) y el laboratorio Guttman también eligió a AWS para su clúster de HPC. "Habíamos estado buscando una manera de utilizar la nube para nuestros recursos informáticos, y AWS era la mejor elección porque nos ofrecía la elasticidad, la flexibilidad y el ahorro de costos que buscábamos", dice Lilley.

El laboratorio Guttman utiliza el clúster de HPC que incluye equipos conectados a Amazon Virtual Private Cloud (Amazon VPC), a través de la cual el laboratorio puede aprovisionar una sección aislada lógicamente de la nube de AWS para lanzar recursos de AWS en una red virtual definida. Los investigadores de laboratorios secos y húmedos obtienen datos de secuenciación genómica y los guardan en un sistema de archivos GlusterFS en el interior de la Amazon VPC, y los investigadores acceden a los datos a través de una estación de trabajo compartida con Linux basada en AWS, que está autenticada a través de AD sencillo, un directorio compatible con Active Directory de AWS Directory Service.

El laboratorio también utiliza el servicio informático de escritorio administrado de Amazon WorkSpaces para usuarios que no poseen Linux. "Queríamos brindar a nuestros usuarios de Windows la capacidad para conectarse desde sus equipos de laboratorio seco a Amazon WorkSpaces y que tuvieran el mismo nivel de acceso a los datos que los usuarios de Linux", dice Lilley. "Además, podemos usar AD sencillo para administrar el acceso fácilmente". El laboratorio utiliza instancias de Amazon Elastic Compute Cloud (Amazon EC2) para sus nodos de GlusterFS, y utiliza un marco CfnCluster para implementar y mantener su clúster de HPC en AWS. Con ese clúster, el equipo de investigación desarrolla herramientas computacionales y métodos estadísticos para analizar datos experimentales.

Con AWS, el laboratorio Guttman ahora tiene la elasticidad necesaria para administrar los niveles de demanda informática cambiantes. "No tuvimos que crear nuestro propio clúster físico para administrar el uso informático cíclico porque AWS escala automáticamente por nosotros", dice Lilley. Guttman agrega, "Ahora, no necesitamos perder tiempo en la priorización de proyectos con anticipación y sabemos que tendremos la capacidad informática suficiente sin tener que actualizar el hardware periódicamente. También podemos desarrollar y probar nuevos métodos de investigación de manera activa. AWS es, definitivamente, una pieza clave de nuestro laboratorio".

El laboratorio también cuenta con el nivel de agilidad necesario para añadir fácilmente más recursos informáticos cuando es necesario. "Recientemente, necesitamos ampliar nuestro sistema GlusterFS de 5 terabytes a 24, y pudimos hacerlo sin tener que comprar hardware nuevo", dice Lilley. "Simplemente añadimos más nodos de Amazon EC2 y aumentamos el almacenamiento en la nube, y solo llevó una hora. Anteriormente, el proceso hubiese llevado semanas porque habría discusiones acerca de los precios de compra de hardware, y a continuación, la adquisición, la instalación y las pruebas".

Además, los investigadores del laboratorio pueden analizar datos de lncRNA con mayor rapidez gracias a la nube de AWS. "Nuestro análisis de lncRNA exige un alto nivel de integración y procesamiento informático", dice Guttman. "Gracias a AWS, podemos procesar rápidamente 1 000 nodos o más, lo que modifica el período del análisis de secuenciación genómica de semanas a días. No podíamos hacerlo con la capacidad limitada que teníamos antes".

El laboratorio también logró reducir costos gracias a las instancias de subasta de Amazon EC2 para licitar capacidad informática de Amazon EC2 extra. "Cuando se consideran las capacidades informáticas elásticas que obtenemos a través del uso de AWS, así como la rentabilidad de las instancias de subasta de EC2, este clúster es mucho más económico que cualquier otra estrategia que hubiésemos podido crear por nuestra propia cuenta", dice Guttman.

Con Amazon WorkSpaces y AD sencillo, el laboratorio Guttman puede administrar fácilmente el acceso al clúster de HPC. "Cuando comenzamos a utilizar el clúster, era difícil lograr la sincronización de las credenciales desde el escritorio de Linux a los hosts de administración y el CfnCluster", dice Lilley. "Con AD sencillo integrado al clúster, ahorramos mucho tiempo porque podemos activar y desactivar cuentas de usuarios desde una ubicación central. AD sencillo nos ayuda a conservar la coherencia en el interior de todo el entorno".

Con el tiempo, Caltech planea que más laboratorios y departamentos utilicen AWS. "Estamos compartiendo nuestra estrategia con AWS con otros investigadores del área de genómica del campus", dice Lilley. "Lo vemos como el modelo que avanza hacia HPC en Caltech".

Para obtener más información acerca del sector de la genómica en la nube, consulte nuestra página informativa sobre el sector de la genómica en AWS.

Para obtener más información acerca de cómo AWS puede ayudarlo a administrar su clúster de HPC, viste nuestra página informativa sobre informática de alto desempeño de AWS.