CaltechGuttmanLab_Customer-Reference_Logo@2x

Пример использования: лаборатория Гутмана

2016 г.

Лаборатория Гутмана по изучению биологии больших незакодированных генов РНК Калифорнийского технологического института – это исследовательская лаборатория под руководством блестящего ученого, доктора Митча Гутмана. Он возглавляет исследовательскую группу по изучению нового класса генов, называемых большими незакодированными генами РНК (lncRNA). При исследовании организации белковых молекул и ДНК в клетке, где большие незакодированные гены РНК управляют точными программами экспрессии генов, Гутман и его команда используют геномный анализ, методы биохимии, молекулярной, клеточной и вычислительной биологии.

учебное пособие: Python
CustomerReferences_QuoteMark

Для анализа больших незакодированных генов РНК требуются мощные средства компьютерной обработки и интеграции данных. Используя AWS, можно быстро выполнять вычисления с помощью более чем 1000 узлов. Теперь анализ геномного секвенирования занимает несколько дней, а не недель, как прежде.

Д‑р Митч Гутман,
доцент кафедры биологии и биоинженерии

Задачи

Когда в 2013 году доктор Гутман начал работать в Калифорнийском технологическом институте, для проведения исследований ему требовался гибкий и эластичный кластер, выполняющий высокопроизводительные вычисления (HPC). «Кластер для нашей лаборатории должен поддерживать крайне изменчивые нагрузки для выполнения вычислений, – говорит Гутман. – Иногда нам требовалась 1000 вычислительных узлов, а иногда только 10. Это количество зависело от доступности данных и от текущего этапа исследовательского проекта. При одновременном ведении нескольких проектов может потребоваться еще больше узлов».

Но создание собственного локального кластера для исследований являлось неподходящим вариантом. «В Калифорнии цены на недвижимость и электроэнергию одни из самых высоких в стране, поэтому создание собственного локального кластера здесь было нам не по карману, – поясняет Джон Лилли, ведущий администратор по системам и сервисам управления информацией Калифорнийского технологического института. – К тому же мы не хотели тратить время своих сотрудников на управление кластером и его обслуживание».

Кроме того, Гутману и его группе требовалась возможность легкого управления данными для доступа к кластеру. «Нужна была возможность централизованной активации и отключения аккаунтов пользователей кластера без риска упустить из вида данные для доступа какой-либо из машин», – говорит Лилли.

Причины использования Amazon Web Services

Все интернет-ресурсы Калифорнийского технологического института уже были перенесены на облачную платформу Amazon Web Services (AWS), и лаборатория Гутмана также выбрала AWS для поддержки своего кластера HPC. «Нас интересовала возможность использования вычислительных ресурсов в облаке. Предлагаемые AWS эластичность, гибкость и экономичность определили наш выбор», – говорит Лилли.

Лаборатория Гутмана использует кластер HPC, вычислительные мощности которого подключены к Amazon Virtual Private Cloud (Amazon VPC), обеспечивающему выделение логически изолированного участка облака AWS для запуска ресурсов AWS в определенной виртуальной сети. Данные геномного секвенирования, полученные вычислительными и экспериментальными методами, сохраняются в файловой системе GlusterFS в облаке Amazon VPC. Сотрудники получают доступ к данным с помощью совместно используемой рабочей станции с ОС Linux на платформе AWS. Аутентификация осуществляется посредством Simple AD – совместимого с Active Directory каталога AWS Directory Service.

Лаборатория также использует вычислительный сервис управляемых рабочих столов Amazon WorkSpaces для пользователей, не работающих с Linux. «Пользователям Windows из нашей группы требовалась возможность подключения со своих рабочих ПК к Amazon WorkSpaces с тем же уровнем доступа к данным, что и у пользователей Linux, – поясняет Лилли. – Сервис Simple AD позволяет легко управлять таким доступом». Лаборатория использует инстансы Amazon Elastic Compute Cloud (Amazon EC2) для узлов GlusterFS и платформу CfnCluster для развертывания и поддержки своего кластера высокопроизводительных вычислений в AWS. С помощью этого кластера осуществляется разработка вычислительных инструментов и статистических методов для анализа экспериментальных данных.

Преимущества

Благодаря использованию AWS лаборатория Гутмана теперь располагает эластичными вычислительными ресурсами, которые обеспечивают эффективную работу при изменении нагрузок. «Нам не пришлось создавать собственный физический кластер для циклически меняющихся нагрузок на вычислительные ресурсы, ведь AWS выполняет масштабирование автоматически», – говорит Лилли. «Теперь нет необходимости тратить время на определение приоритетности проектов. Можно не беспокоиться о том, что вычислительных мощностей не хватит и придется обновлять оборудование каждые несколько лет, – добавляет Гутман. – AWS также позволяет активно разрабатывать и тестировать новые методы исследований. Эта платформа определенно стала главным инструментом в нашей лаборатории».

Лаборатория теперь располагает необходимой гибкостью для простого добавления вычислительных ресурсов по мере необходимости. «Недавно мы расширили лабораторную систему GlusterFS с 5 до 24 терабайт, и для этого не пришлось приобретать новое оборудование, – сообщает Лилли. – Мы просто добавили узлы Amazon EC2 и увеличили емкость облачного хранилища, на это хватило одного часа. Раньше на это пришлось бы потратить несколько недель, поскольку требовалось бы предварительное обсуждение цен, а затем приобретение, установка и тестирование оборудования».

Кроме того, использование облака AWS существенно ускоряет анализ данных больших незакодированных генов РНК. «Для анализа больших незакодированных генов РНК требуются мощные средства компьютерной обработки и интеграции данных, – поясняет Гутман. – Используя AWS, можно быстро выполнять вычисления с помощью более чем 1000 узлов. Теперь анализ геномного секвенирования занимает несколько дней, а не недель, как прежде. Это было бы невозможно сделать с ограниченными ресурсами, которыми мы располагали ранее».

Лаборатория также смогла сократить расходы за счет использования спотовых инстансов Amazon EC2, которые предлагают неиспользуемые вычислительные мощности Amazon EC2 со скидкой до 90 % по сравнению с ценами на инстансы по требованию. «С учетом эластичных вычислительных возможностей, предоставляемых AWS, а также экономичности спотовых инстансов EC2, этот кластер оказался гораздо дешевле любого из возможных решений, которые мы могли обеспечить сами», – утверждает Гутман.

Сервисы Amazon WorkSpaces и Simple AD обеспечивают лаборатории Гутмана простое управление доступом в кластере HPC. «Когда мы только начали работать с кластером, синхронизация данных для доступа между рабочим столом Linux, управляющими компьютерами и CfnCluster казалась непростой задачей, – вспоминает Лилли. – Интегрировав в кластер Simple AD, мы сэкономили немало времени, поскольку теперь можем централизованно активировать и отключать аккаунты пользователей. Сервис Simple AD обеспечивает единообразие авторизации по всей рабочей среде».

В перспективе Калифорнийский технологический институт планирует перевести на платформу AWS и другие лаборатории и отделы. «Мы предоставляем нашу систему на платформе AWS другим исследователям генома, – говорит Лилли. – Ее можно использовать как шаблон, успешно применимый при выполнении любых высокопроизводительных вычислений в нашем институте».


О лаборатории Гутмана при Калифорнийском технологическом институте

Лаборатория Гутмана по изучению биологии больших незакодированных генов РНК Калифорнийского технологического института – это исследовательская лаборатория под руководством блестящего ученого, доктора Митча Гутмана.


Использованные сервисы AWS

Amazon EC2

Вычислительное облако Amazon Elastic Compute Cloud (Amazon EC2) – это веб-сервис, предоставляющий безопасные масштабируемые вычислительные ресурсы в облаке. Он предназначен для упрощения облачных вычислений в масштабе Интернета.

Подробнее »

Amazon VPC

Amazon Virtual Private Cloud (Amazon VPC) – это логически изолированный раздел облака AWS, в котором можно запускать ресурсы AWS в самостоятельно заданной виртуальной сети.

Подробнее »

Amazon WorkSpaces

Amazon WorkSpaces – это управляемое защищенное решение с моделью «рабочий стол как сервис» (DaaS).

Подробнее »


Начать работу

Ежедневно компании всех размеров и из всех отраслей радикально модернизируют свой образ ведения дел с помощью AWS. Свяжитесь с нашими специалистами и начните переход в облако AWS уже сегодня.