На факультете информатики университета штата Калифорния в Сан-Франциско учатся около 400 студентов бакалавриата и 100 студентов магистратуры. Факультет занимается как обучением, так и научно-исследовательскими работами. В настоящее время факультет совместно с Helix Group из Стэнфордского университета работает над проектом машинного обучения FEATURE при поддержке Национального института здравоохранения (грант LM05652).

В проекте FEATURE машинное обучение используется для прогнозирования функциональных участков в протеинах и других трехмерных молекулярных структурах. Профессор Драгутин Петкович объясняет: «В массово-параллельной оптимизации машинного обучения применяются алгоритмы машины опорных векторов (SVM) на тысячах наборах данных для обучения, состоящих из сотен тысяч векторов. Оптимальные параметры SVM находятся посредством параллелизованного поиска методом перебора по сетке параметров с k-кратной перекрестной проверкой. Такая оптимизация подразумевает независимое многократное повторение подобных операций». На рис. 1 показан проект FEATURE.

Пример использования AWS. Университет штата Калифорния в Сан-Франциско: сведения о проекте

Рис. 1. Сведения о проекте FEATURE

Проект FEATURE, как и другие инновационные научно-исследовательские проекты, требует большого объема высокопроизводительных вычислительных ресурсов, и научные сотрудники, участвующие в проекте, поняли, что спрос на вычислительные ресурсы для подробных биомолекулярных исследований скоро превысит мощности, которыми располагает университет. Вычислительные ресурсы в университете штата Калифорния в Сан-Франциско используются совместно, и высокий спрос означает, что исследователям приходится либо изменять охват и диапазон решаемых проблем, либо долго ждать свободных ресурсов. Кроме того, ограниченность в вычислительных ресурсах приводила к долгому ожиданию результатов и к принудительному ограничению экспериментов, которые могли бы проводить ученые.

Ученые нуждались в вычислительных ресурсах только время от времени, поэтому приобретать мощные ресурсы и обслуживать их для нерегулярного использования было бы неэкономично. Рассмотрев имеющиеся варианты, исследовательская группа поняла, что их потребностям отвечает доступ к вычислительным ресурсам по требованию, предоставляемый Amazon Web Services (AWS). «Модель оплаты по требованию сервиса Amazon Elastic Compute Cloud (Amazon EC2) была более подходящим вариантом, чем владение собственным мощным сервером», – отмечает профессор Петкович.

Команда исследователей создала FEATURE, используя C, C++, Perl, Python и другие инструменты. Они выполнили развертывание кластера в Amazon EC2 с помощью MIT StarCluster, утилиты для автоматического выделения ресурсов, созданной специально для научных и технических высокопроизводительных вычислений. Банк данных белков и базы данных структуры белков были загружены на томаAmazon Elastic Block Store (Amazon EBS), чтобы обеспечить простоту администрирования и повторного использования, доступ к ним выполнялся с помощью специального образа машины Amazon Linux (Amazon Linux AMI). На рис. 2 показана архитектура проекта FEATURE.

Университет штата Калифорния в Сан-Франциско, схема архитектуры в AWS

Рис. 2: Архитектура проекта FEATURE

Для оценки производительности выполнения проекта FEATURE на AWS команда использовала профилирование ПО и эталонное тестирование операций ввода/вывода для измерения метрик производительности. Петкович объясняет: «У нас был небольшой собственный кластер с 40 узлами. Мы сравнили его с облаком и обнаружили, что Amazon EC2 имеет подавляющее превосходство по количеству циклов процессора, приходящихся на единицу затрат, а также в отношении способности масштабироваться в случае необходимости. Эксперименты, занимавшие у нас недели, теперь выполняются за ночь. Это означает, что наши ученые постоянно занимаются исследованиями, а не ожиданием результатов. AWS позволила сильно сократить время проведения научных исследований».

По оценке профессора Петковича, расходы на проведение расчетов уменьшились примерно в 20 раз. «Расчетная стоимость работы нашего небольшого кластера с 40 узлами составляла 1,71 доллара на вычислительный модуль в час. По сравнению с этим Amazon EC2 обходится нам всего в 8 центов за эквивалентный эластичный вычислительный модуль (ECU) в час», – объясняет он. Кроме этого, Петкович и его команда могут использовать предупреждения об оплате и другие инструменты оптимизации расходов, предоставляемые AWS для планирования расходов на использование сервисов и управления ими.

«AWS предоставляет по требованию доступ к высокопроизводительным ресурсам, что позволяет нам сосредоточиться на науке, а не на трудоемкой работе по обслуживанию серверной инфраструктуры. AWS помогает нам снять ограничения на объемы и диапазон наших экспериментов по машинному обучению», – отмечает Петкович.

Подробнее о геномных исследованиях в облаке см. на странице сведений о геномике на AWS.

Чтобы узнать, как AWS может помочь с высокопроизводительными вычислениями, см. нашу страницу сведений о высокопроизводительных вычислениях (HPC).