Caso práctico de la Universidad Estatal de San Francisco

2014

El departamento de Ciencias de la computación de la Universidad Estatal de San Francisco tiene aproximadamente 400 alumnos universitarios y 100 alumnos de posgrado, y se dedica tanto a la educación como a la investigación. Actualmente, el departamento está trabajando en un proyecto de aprendizaje automático llamado FEATURE, en colaboración con el Stanford Helix Group y con el apoyo del Instituto Nacional de Salud de los Estados Unidos, (subvención NIH LM05652).

FEATURE usa el aprendizaje automático para predecir los sitios funcionales en proteínas y otras estructuras moleculares tridimensionales (3D). El profesor Dragutin Petkovic explica: “La optimización masivamente paralela del aprendizaje automático requiere la aplicación de algoritmos de máquinas de vectores de soporte (SVM, support vector machine) a miles de conjuntos de datos de capacitación compuestos por cientos de miles de vectores. Los parámetros de SVM óptimos se encuentran a través de las búsquedas de red en paralelo de fuerza bruta con validación cruzada de k-fold. Esta optimización requiere la repetición de operaciones similares de manera independiente”. 

iniciar un tutorial de Python
kr_quotemark

AWS proporciona acceso bajo demanda a recursos de alto desempeño, lo que nos permite concentrarnos en la ciencia, en vez de en la pesada tarea de mantener la infraestructura del servidor".

Profesor Dragutin Petkovic
Universidad Estatal de San Francisco

El desafío

FEATURE, como cualquier otro proyecto científico innovador, tiene un apetito ávido por una informática de alto desempeño. Los científicos del proyecto descubrieron que la demanda informática para explorar aspectos detallados de las moléculas biológicas pronto superó las instalaciones de la universidad. Los recursos informáticos se comparten en la Universidad Estatal de San Francisco y la alta demanda llevó a que los investigadores reestructuren el tamaño y alcance de sus preguntas o que deban enfrentarse a demoras en los recursos disponibles. Asimismo, estas limitaciones generaron largas esperas de los resultados y pusieron un límite arbitrario a los experimentos que podían hacer los científicos.

Por qué Amazon Web Services

Los científicos solamente necesitaban recursos informáticos periódicamente y no era rentable comprar y mantener un recurso a gran escala para usarlo solo algunas veces. Como el equipo de investigación consideraba otras opciones, se dieron cuenta de que el acceso bajo demanda a los recursos informáticos que otorgaba Amazon Web Services (AWS) cumplía con sus objetivos. “El modelo de pago por uso de Amazon Elastic Compute Cloud (Amazon EC2) era la opción más adecuada en comparación a tener un gran servidor en nuestras instalaciones”, comenta el profesor Petkovic.

El equipo de investigación creó FEATURE utilizando, entre otras herramientas, C, C++, Perl y Python. Implementaron el clúster en Amazon EC2 con MIT StarCluster, una herramienta de aprovisionamiento automatizado creada para informática científica y técnica de alto desempeño. El Banco de datos de proteína y las bases de datos de la estructura de las proteínas se cargaron a volúmenes de Amazon Elastic Block Store (Amazon EBS) para administrarlos más fácilmente y volver a usarlos. Se puede acceder a ellos usando una imagen de máquina personalizada de Amazon Linux (Amazon Linux AMI).

Los beneficios

Para evaluar el desempeño del proyecto FEATURE en AWS, el equipo usó perfiles de software y evaluación comparativa de E/S para medir las métricas de desempeño. Petkovic explica: “El equipo tiene un clúster pequeño de 40⁰nodos en las instalaciones. Comparamos esto con la nube y notamos que Amazon EC2 era ampliamente superior en cuanto a los ciclos de CPU por costo, y también al ofrecer la capacidad de escalar cuando fuera necesario. Los experimentos que solían llevarnos semanas, ahora se hacen de un día para el otro. Esto quiere decir que nuestros científicos siempre están trabajando y no esperando resultados. AWS reduce enormemente el tiempo de respuesta de nuestras consultas científicas”.

El profesor Petkovic estima que los costos informáticos serán 20⁰veces menores. “Estimamos que un clúster pequeño de 40⁰nodos en las instalaciones funciona a 1,71⁰USD por unidad informática por hora. En comparación, Amazon EC2 cuesta solo 0,08⁰USD por unidad informática elástica equivalente (ECU) por hora”, explica. Asimismo, Petkovic y su equipo pueden usar alertas de facturación y otras herramientas de optimización de costos que ofrece AWS para planificar y administrar el costo de utilizar el servicio.

“AWS proporciona acceso bajo demanda a recursos de alto desempeño, lo que nos permite concentrarnos en la ciencia, en vez de en la pesada tarea de mantener la infraestructura del servidor. AWS nos ayuda a superar los límites del tamaño y el alcance de nuestros experimentos de aprendizaje automático”, afirma Petkovic.

San Francisco State University architecture diagram

Acerca de la Universidad Estatal de San Francisco

El departamento de Ciencias de la computación de la Universidad Estatal de San Francisco tiene aproximadamente 400 alumnos universitarios y 100 alumnos de posgrado, y se dedica tanto a la educación como a la investigación. Actualmente, el departamento está trabajando en un proyecto de aprendizaje automático llamado FEATURE, en colaboración con el Stanford Helix Group y con el apoyo del Instituto Nacional de Salud de los Estados Unidos, (subvención NIH LM05652)


Servicios de AWS utilizados

Amazon EC2

Capacidad informática en la nube segura y de tamaño modificable. Lance aplicaciones cuando sea necesario sin compromisos iniciales.

Más información >>

Amazon EBS

Amazon Elastic Block Store (EBS) es un servicio de almacenamiento de bloque de alto rendimiento con facilidad de uso diseñado para usar con Amazon Elastic Compute Cloud (EC2).

Más información >>

AMI de Amazon Linux

La AMI de Amazon Linux es una imagen de Linux mantenida y compatible que ofrece Amazon Web Services para usar en Amazon Elastic Compute Cloud (Amazon EC2).

Más información >>


Comenzar

Empresas de todos los tamaños y de todos los sectores están transformando sus negocios con AWS a diario. Póngase en contacto con nuestros expertos e inicie hoy mismo su traspaso a la nube de AWS.