Caso práctico del laboratorio Guttman de Caltech

2016

El laboratorio Guttman de biología de lncRNA del Instituto de Tecnología de California (Caltech) es un laboratorio de investigación dirigido por el renombrado científico Dr. Mitch Guttman. Encabeza un equipo de investigadores que estudia una nueva clase de genes llamados lncRNA, acrónimo de ARN largo no codificante. Con la ayuda de estrategias genómicas, la bioquímica, la biología molecular, la biología celular y la biología computacional, Guttman y su equipo están analizando de qué manera los lncRNA organizan las moléculas de ADN y las proteínas en la célula para controlar programas de expresión de genes precisos.

iniciar un tutorial de python
kr_quotemark

Nuestro análisis de lncRNA exige un alto nivel de integración y procesamiento informático. “Gracias a AWS, podemos procesar rápidamente 1000 nodos o más, lo que modifica el período del análisis de secuenciación genómica de semanas a días”.

Dr. Mitch Guttman
Profesor adjunto, división de biología e ingeniería biológica, laboratorio Caltech Guttman

El desafío

Cuando el Dr. Guttman ingresó a Caltech en 2013, quería asegurarse de que su equipo de investigación contara con un clúster de informática de alto desempeño (HPC) que fuese elástico y flexible. "Cuando pensábamos en un clúster para nuestro laboratorio, sabíamos que tenía que admitir niveles de demanda informática cambiantes", dice Guttman. "A veces, necesitamos 1000 nodos informáticos, y otras veces, tan solo 10. Depende de la disponibilidad de datos y en qué etapa del proyecto de investigación nos encontramos. Además, la convergencia de varios proyectos de manera simultánea puede elevar la cifra aún más".

Sin embargo, el laboratorio no quería crear su propio clúster on-premise para satisfacer sus necesidades. "En California, el costo de electricidad y de inmuebles es uno de los más elevados del país, por lo que nos preocupaba el costo de crear nuestro propio clúster aquí", dice John Lilley, administrador principal, servicios y sistemas de administración de la información, Caltech. "Tampoco queríamos invertir nuestro tiempo en administrar y mantener el clúster".

Además, Guttman y su equipo querían asegurarse de poder administrar fácilmente las credenciales de acceso al clúster. "Queríamos poder activar y desactivar cuentas de usuarios del clúster a partir de una ubicación central, sin tener que preocuparnos por la pérdida de credenciales en cualquier máquina", dice Lilley.

Por qué Amazon Web Services

Caltech ya había trasladado la totalidad de sus recursos web a la plataforma en la nube de Amazon Web Services (AWS) y el laboratorio Guttman también eligió a AWS para su clúster de HPC. "Habíamos estado buscando una manera de utilizar la nube para nuestros recursos informáticos, y AWS era la mejor elección porque nos ofrecía la elasticidad, la flexibilidad y el ahorro de costos que buscábamos", dice Lilley.

El laboratorio Guttman utiliza el clúster de HPC que incluye equipos conectados a Amazon Virtual Private Cloud (Amazon VPC), a través de la cual el laboratorio puede aprovisionar una sección aislada lógicamente de la nube de AWS para lanzar recursos de AWS en una red virtual definida. Los investigadores de laboratorios secos y húmedos obtienen datos de secuenciación genómica y los guardan en un sistema de archivos GlusterFS en el interior de la Amazon VPC, y los investigadores acceden a los datos a través de una estación de trabajo compartida con Linux basada en AWS, que está autenticada a través de Simple AD, un directorio compatible con Active Directory de AWS Directory Service.

El laboratorio también utiliza el servicio informático de escritorio administrado de Amazon WorkSpaces para usuarios que no poseen Linux. "Queríamos brindar a nuestros usuarios de Windows la capacidad para conectarse desde sus equipos de laboratorio seco a Amazon WorkSpaces y que tuvieran el mismo nivel de acceso a los datos que los usuarios de Linux", dice Lilley. "Además, podemos usar Simple AD para administrar el acceso fácilmente". El laboratorio utiliza instancias de Amazon Elastic Compute Cloud (Amazon EC2) para sus nodos de GlusterFS, y utiliza un marco CfnCluster para implementar y mantener su clúster de HPC en AWS. Con ese clúster, el equipo de investigación desarrolla herramientas computacionales y métodos estadísticos para analizar datos experimentales.

Los beneficios

Con AWS, el laboratorio Guttman ahora tiene la elasticidad necesaria para administrar los niveles de demanda informática cambiantes. "No tuvimos que crear nuestro propio clúster físico para administrar el uso informático cíclico porque AWS escala automáticamente por nosotros", dice Lilley. Guttman agrega, "Ahora, no necesitamos perder tiempo en la priorización de proyectos con anticipación y sabemos que tendremos la capacidad informática suficiente sin tener que actualizar el hardware periódicamente. También podemos desarrollar y probar nuevos métodos de investigación de manera activa. AWS es, definitivamente, una pieza clave de nuestro laboratorio".

El laboratorio también cuenta con el nivel de agilidad necesario para añadir fácilmente más recursos informáticos cuando es necesario. "Recientemente, necesitamos ampliar nuestro sistema GlusterFS de 5 terabytes a 24, y pudimos hacerlo sin tener que comprar hardware nuevo", dice Lilley. "Simplemente añadimos más nodos de Amazon EC2 y aumentamos el almacenamiento en la nube, y solo llevó una hora. Anteriormente, el proceso hubiese llevado semanas porque habría discusiones acerca de los precios de compra de hardware, y a continuación, la adquisición, la instalación y las pruebas".

Además, los investigadores del laboratorio pueden analizar datos de lncRNA con mayor rapidez gracias a la nube de AWS. "Nuestro análisis de lncRNA exige un alto nivel de integración y procesamiento informático", dice Guttman. "Gracias a AWS, podemos procesar rápidamente 1 000 nodos o más, lo que modifica el período del análisis de secuenciación genómica de semanas a días. No podíamos hacerlo con la capacidad limitada que teníamos antes".

El laboratorio también logró reducir los costos gracias al uso de las instancias de spot de Amazon EC2, que ofrecen capacidad informática de Amazon EC2 sin uso con hasta un 90% de descuento en relación con los precios de las instancias bajo demanda. "Cuando se consideran las capacidades informáticas elásticas que obtenemos a través del uso de AWS, así como la rentabilidad de las instancias de subasta de EC2, este clúster es mucho más económico que cualquier otra estrategia que hubiésemos podido crear por nuestra propia cuenta", dice Guttman.

Con Amazon WorkSpaces y Simple AD, el laboratorio Guttman puede administrar fácilmente el acceso al clúster de HPC. "Cuando comenzamos a utilizar el clúster, era difícil lograr la sincronización de las credenciales desde el escritorio de Linux a los hosts de administración y el CfnCluster", dice Lilley. "Con Simple AD integrado al clúster, ahorramos mucho tiempo porque podemos activar y desactivar cuentas de usuarios desde una ubicación central. Simple AD nos ayuda a conservar la coherencia en el interior de todo el entorno".

Con el tiempo, Caltech planea que más laboratorios y departamentos utilicen AWS. "Estamos compartiendo nuestra estrategia con AWS con otros investigadores del área de genómica del campus", dice Lilley. "Lo vemos como el modelo que avanza hacia HPC en Caltech".


Sobre el Laboratorio Guttman de Caltech

El laboratorio Guttman de biología de lncRNA del Instituto de Tecnología de California (Caltech) es un laboratorio de investigación dirigido por el renombrado científico Dr. Mitch Guttman.


Servicios de AWS utilizados

Amazon EC2

Amazon Elastic Compute Cloud (Amazon EC2) es un servicio web que proporciona capacidad informática en la nube segura y de tamaño modificable. Está diseñado para simplificar el uso de la informática en la nube a escala web para los desarrolladores.

Más información »

Amazon VPC

Amazon Virtual Private Cloud (Amazon VPC) permite aprovisionar una sección de la nube de AWS aislada de forma lógica, en la que puede lanzar recursos de AWS en una red virtual que usted defina.

Más información »

Amazon WorkSpaces

Amazon WorkSpaces es una solución administrada y segura de escritorio como servicio (DaaS).

Más información »


Comenzar

Empresas de todos los tamaños y de todos los sectores están transformando sus negocios con AWS a diario. Póngase en contacto con nuestros expertos e inicie hoy mismo su traspaso a la nube de AWS.