El departamento de Ciencias de la computación de la Universidad Estatal de San Francisco tiene aproximadamente 400 alumnos universitarios y 100 alumnos de posgrado, y se dedica tanto a la educación como a la investigación. Actualmente, el departamento está trabajando en un proyecto de aprendizaje de máquina llamado FEATURE, en colaboración con el Stanford Helix Group y con el apoyo del Instituto Nacional de Salud de los Estados Unidos, (subvención NIH LM05652).

FEATURE usa el aprendizaje de máquina para predecir los sitios funcionales en proteínas y otras estructuras moleculares tridimensionales (3D). El profesor Dragutin Petkovic explica: “La optimización masivamente paralela del aprendizaje de máquina requiere la aplicación de algoritmos de máquinas de vectores de soporte (SVM) a miles de juegos de datos de capacitación compuestos por cientos de miles de vectores. Los parámetros de SVM óptimos se encuentran en las búsquedas de red paralelizada de fuerza bruta con validación cruzada de doblez k. Esta optimización requiere la repetición de operaciones similares de manera independiente”. La Figura 1 a continuación muestra el proyecto FEATURE.

Datos del proyecto del caso práctico de AWS del estado de SF

Figura 1: datos del proyecto FEATURE

FEATURE, como cualquier otro proyecto científico innovador, tiene un apetito ávido por una informática de alto desempeño. Los científicos del proyecto descubrieron que la demanda informática para explorar aspectos detallados de las moléculas biológicas pronto superó las instalaciones de la facultad. Los recursos informáticos se comparten en la Universidad Estatal de San Francisco y la alta demanda llevó a que los investigadores reestructuren el tamaño y alcance de sus preguntas o que deban enfrentarse a demoras en los recursos disponibles. Asimismo, estas limitaciones generaron largas esperas de los resultados y pusieron un límite arbitrario a los experimentos que podían hacer los científicos.

Los científicos solamente necesitaban recursos informáticos periódicamente y no era rentable comprar y mantener un recurso a gran escala para usarlo solo algunas veces. Como el equipo de investigación consideraba otras opciones, se dieron cuenta de que el acceso bajo demanda a los recursos informáticos que otorgaba Amazon Web Services (AWS) cumplía con sus objetivos. “El modelo de pago sobre la marcha de Amazon Elastic Compute Cloud (Amazon EC2) era la opción más adecuada en comparación a tener un gran servidor en nuestras instalaciones”, comenta el profesor Petkovic.

El equipo de investigación creó FEATURE usando, entre otras herramientas, C, C++, Perl y Python. Implementaron el clúster en Amazon EC2 con MIT StarCluster, una herramienta de aprovisionamiento automatizado creada para informática científica y técnica de alto desempeño. El Banco de proteína y las bases de datos de la estructura de las proteínas se cargaron a volúmenes de Amazon Elastic Block Store (Amazon EBS) para administrarlos más fácilmente y volver a usarlos. Se puede acceder a ellos usando una imagen de máquina personalizada de Amazon Linux (Amazon Linux AMI). La Figura 2 muestra la arquitectura del proyecto FEATURE.

Diagrama de la arquitectura de AWS de la Universidad Estatal de San Francisco

Figura 2: arquitectura del proyecto FEATURE

Para evaluar el desempeño del proyecto FEATURE en AWS, el equipo usó software de extrapolación de información y evaluaciones comparativas de ingresos y egresos para medir las métricas de desempeño. Petkovic explica: “El equipo tiene un clúster pequeño de 40 nodos en las instalaciones. Comparamos esto con la nube y notamos que Amazon EC2 era ampliamente superior en cuanto a los ciclos de CPU por coste, y también al ofrecer la capacidad de expandirse cuando fuera necesario. Los experimentos que solían llevarnos semanas, ahora se hacen de un día para el otro. Esto quiere decir que nuestros científicos siempre están haciendo algo y no esperando resultados. AWS reduce enormemente el tiempo de respuesta de nuestras consultas científicas”.

El profesor Petkovic estima que los costes informáticos serán 20 veces menores. “Estimamos que un clúster pequeño de 40 nodos en las instalaciones funciona a 1,71 USD por unidad informática por hora. En comparación, Amazon EC2 cuesta solo 0,08 USD por unidad informática elástica equivalente (ECU) por hora”, explica. Asimismo, Petkovic y su equipo pueden usar alertas de facturación y otras herramientas de optimización de costes que ofrece AWS para planificar y administrar el coste de usar el servicio.

“AWS proporciona acceso bajo demanda a recursos de alto desempeño, lo que nos permite concentrarnos en la ciencia, en vez de en la pesada tarea de mantener la infraestructura del servidor. AWS nos ayuda a superar los límites del tamaño y alcance de nuestros experimentos de aprendizaje”, afirma Petkovic.

Para obtener más información acerca de genómica en la nube, visite nuestra página de Genómica en AWS.

Para averiguar cómo AWS le puede ayudar con sus necesidades de Informática de alto desempeño, visite nuestra página de HPC.