Для анализа больших незакодированных генов РНК требуются мощные средства вычислительной обработки и интеграции данных. Благодаря AWS стало возможно быстрое выполнение вычислений с помощью 1000 и более вычислительных узлов. Теперь анализ геномного секвенирования занимает несколько дней, а не недель, как прежде. 
Д-р Митч Гутман Доцент кафедры биологии и биоинженерии

Лаборатория Гутмана по биологии больших незакодированных генов РНК Калифорнийского технологического института – это исследовательская лаборатория под руководством блестящего ученого, д-ра Митча Гутмана. Он возглавляет исследовательскую группу по изучению нового класса генов, называемых большими незакодированными генами РНК (lncRNA). При исследовании организации белковых молекул и ДНК в клетке, где большие незакодированные гены РНК управляют точными программами экспрессии генов, Гутман и его команда используют геномный анализ, методы биохимии, молекулярной, клеточной и вычислительной биологии.

Когда в 2013 году д-р Гутман начал работать в Калифорнийском технологическом институте, он определил, что для исследований потребуется гибко масштабируемый кластер высокопроизводительных вычислений (HPC). «Кластер для нашей лаборатории должен поддерживать крайне изменчивые вычислительные нагрузки, – рассказывает Гутман. –  Иногда нам требовалась 1000 вычислительных узлов, а иногда только 10. Это количество зависело от доступности данных и от текущего этапа исследовательского проекта. При одновременном ведении нескольких проектов может потребоваться еще больше узлов».

Но создание собственного локального кластера для исследований оказалось неподходящим вариантом. «В Калифорнии цены на недвижимость и электроэнергию одни из самых высоких по стране, поэтому создание собственного локального кластера здесь было нам не по карману, – поясняет Джон Лилли, ведущий администратор по системам и сервисам управления информацией Калифорнийского технологического института. –  К тому же мы не хотели тратить время своих сотрудников на управление кластером и его обслуживание».

Кроме того, Гутману и его группе было необходимо обеспечить возможность легкого управления данными для доступа к кластеру. «Нужна была централизованная возможность активации и отключения аккаунтов пользователей кластера из одного места, без риска упустить из вида данные для доступа какой-либо из машин», – говорит Лилли.

Все интернет-ресурсы Калифорнийского технологического института уже были перенесены на облачную платформу Amazon Web Services (AWS), и лаборатория Гутмана также выбрала AWS для поддержки своего кластера HPC. «Нас интересовала возможность использования вычислительных ресурсов в облаке. Предлагаемые AWS эластичность, гибкость и экономичность определили наш выбор», – говорит Лилли.

Лаборатория Гутмана использует кластер HPC, вычислительные мощности которого подключены к Amazon Virtual Private Cloud (Amazon VPC), обеспечивающему выделение логически изолированного участка облака AWS для запуска ресурсов AWS в определенной виртуальной сети. Данные геномного секвенирования, полученные вычислительными и экспериментальными методами, сохраняются в файловой системе GlusterFS в облаке Amazon VPC. Сотрудники получают доступ к данным с помощью совместно используемой рабочей станции с ОС Linux на платформе AWS. Аутентификация осуществляется посредством Simple AD – совместимого с Active Directory каталога AWS Directory Service.

Лаборатория также использует вычислительный сервис управляемых рабочих столов Amazon WorkSpaces для пользователей, не работающих с Linux. «Пользователям Windows из нашей группы требовалась возможность подключения со своих рабочих ПК к Amazon WorkSpaces с тем же уровнем доступа к данным, что и у пользователей Linux, – поясняет Лилли. –  Сервис Simple AD позволяет легко управлять таким доступом». Лаборатория использует инстансы Amazon Elastic Compute Cloud (Amazon EC2) для узлов GlusterFS и фреймворк CfnCluster для развертывания и поддержки своего кластера высокопроизводительных вычислений на платформе AWS. С помощью этого кластера осуществляется разработка вычислительных инструментов и статистических методов для анализа экспериментальных данных.

Благодаря использованию AWS лаборатория Гутмана теперь располагает эластичными вычислительными ресурсами, которые обеспечивают эффективную работу при изменении требований. «Нам не пришлось создавать собственный физический кластер для циклически меняющихся нагрузок на вычислительные ресурсы, ведь AWS выполняет масштабирование автоматически», – говорит Лилли. «Теперь нет необходимости тратить время на определение приоритетности проектов. Можно не беспокоиться о том, что вычислительных мощностей не хватит и придется обновлять оборудование каждые несколько лет, – добавляет Гутман. –  AWS также позволяет активно разрабатывать и тестировать новые методы исследования. Эта платформа определенно стала решающим инструментом в нашей лаборатории».

Лаборатория теперь располагает необходимой гибкостью для простого добавления вычислительных ресурсов по мере необходимости. «Недавно мы расширили лабораторную систему GlusterFS с 5 до 24 терабайт, и для этого не пришлось приобретать новое оборудование, – сообщает Лилли. –  Мы просто добавили узлы Amazon EC2 и увеличили емкость облачного хранилища, на это хватило одного часа. Раньше на это пришлось бы потратить несколько недель, поскольку требовалось бы предварительное обсуждение цен, а затем приобретение, установка и тестирование оборудования».

Кроме того, использование облака AWS существенно ускоряет анализ данных больших незакодированных генов РНК. «Для анализа больших незакодированных генов РНК требуются мощные средства вычислительной обработки и интеграции данных, – поясняет Гутман. –  Благодаря AWS стало возможно быстрое выполнение вычислений с помощью 1000 и более вычислительных узлов. Теперь анализ геномного секвенирования занимает несколько дней, а не недель, как прежде. Это было бы невозможно сделать с ограниченными ресурсами, которыми мы располагали ранее».

Лаборатории также удалось сократить затраты благодаря использованию спотовых инстансов Amazon EC2, которые позволяют предлагать свою цену на свободные вычислительные ресурсы Amazon EC2. «С учетом эластичных вычислительных возможностей, предоставляемых AWS, а также экономичности спотовых инстансов EC2, этот кластер оказался гораздо дешевле любого из возможных решений, которые мы могли обеспечить сами», – утверждает Гутман.

Сервисы Amazon WorkSpaces и Simple AD обеспечивают лаборатории Гутмана простое управление доступом в кластере HPC. «Когда мы только начали работать с кластером, синхронизация данных для доступа между рабочим столом Linux, управляющими компьютерами и CfnCluster казалась непростой задачей, – вспоминает Лилли. –  Интегрировав в кластер Simple AD, мы сэкономили немало времени, поскольку теперь можем централизованно активировать и отключать аккаунты пользователей из одного места. Сервис Simple AD обеспечивает единообразие авторизации по всей рабочей среде».

В конечном счете Калифорнийский технологический институт планирует перевести на платформу AWS и другие лаборатории и отделы. «Мы предоставляем нашу систему на платформе AWS другим исследователям генома, – говорит Лилли. –  Ее можно использовать как шаблон, успешно применимый при выполнении любых высокопроизводительных вычислений в нашем институте».

Подробнее о геномных исследованиях в облаке см. на странице сведений об использовании платформы AWS в геномике.

Подробнее об управлении кластером HPC с помощью AWS см. на странице высокопроизводительных вычислений на AWS.