Лаборатория персонализированной медицины (LPM) Центра биомедицинской информатики Гарвардской медицинской школы под руководством доктора Питера Тонеллато использует технологии секвенирования с высокой пропускной способностью и сбора биомедицинских данных, а также гибкость Amazon Web Services (AWS) для разработки инновационных тестовых моделей анализа полного генома в рекордно короткие сроки. «Сочетание возможностей AWS и нашего подхода к биомедицинским вычислениям позволяет нам концентрировать время и ресурсы на разработке имитационных моделей, а не на технологиях, быстрее добиваясь результатов, – говорит Тонеллато. – Без AWS мы бы точно не достигли таких впечатляющих успехов».

Лаборатория Тонеллато занимается вопросами персонализированной медицины – профилактических медицинских услуг на основании индивидуальных генетических показателей, – создавая имитационные модели для оценки клинической эффективности новых генетических тестов.

В число других проектов лаборатории входят имитация больших групп пациентов для создания имитационных моделей клинических тестов и прогнозирования. Чтобы решить проблему недостатка данных реальных пациентов для построения моделей, LPM создает аватары – виртуальных пациентов. Лаборатория формирует разные наборы аватаров для разных генетических тестов и копирует их в больших количествах в соответствии с характеристиками пациентов больницы. Тонеллато хотел найти эффективный способ манипулировать множеством аватаров, до 100 миллионов одновременно. «Нам нужно было не просто манипулировать огромными объемами данных, – поясняет он. – Нам требовалась универсальная система, в которой научные сотрудники могли бы выстраивать ситуации с генетическими рисками, указывать требуемые типы имитационных моделей и анализа для генерации аватаров, затем оперативно создавать интернет-приложения для запуска этих моделей, а не тратить все свое время на решение технических проблем».

В 2006 году Тонеллато обратился к облачным вычислениям для решения сложных и разносторонних вычислительных задач лаборатории. «Я рассматривал несколько вариантов, но не нашел ничего более надежного и гибкого, чем Amazon Web Services», – говорит он. У Тонеллато был опыт разработки ЦОД, и он понимал, что у них нет времени на установку серверов и написание необходимого ПО. Вместо этого он решил провести тест. Доктор предложил своему отделу разработать группу индивидуализированных образов Amazon Machine Image (AMI), которые стали бы оптимальной средой разработки для интернет-приложений исследователей.

Сегодня лаборатория Тонеллато уже интегрирует в свои рабочие процессы спотовые инстансы, еще более эффективно расходуя научные гранты. «Мы используем спотовые инстансы на кластерах Amazon Elastic Cloud Compute (Amazon EC2) для анализа целых геномов, – поясняет Тонеллато. – Спотовые инстансы позволяют развернуть еще больше рабочих узлов с еще меньшими затратами, так что мы экономим больше времени и денег. Мы потратили всего один день на дополнительную настройку, и экономия выросла примерно на 50 %». Лаборатория Тонеллато использует инструменты StarCluster MIT со встроенными возможностями управления Oracle Grid Engine Cluster на спотовых инстансах. Интеграцию StarCluster в рабочий процесс проводил Эрик Гафни, программист из лаборатории Тонеллато. «StarCluster позволяет очень просто настраивать и запускать спотовые кластеры, чтобы начинать работу с ними менее чем за 10 минут», – рассказывает Гафни.

LPM также отметила недостаток публикаций об эффективном использовании облачных вычислений в академической среде и опубликовала соответствующее популярное руководство в журнале PLoS Computational Biology. «В данной статье приведен пример эффективного использования AWS академической лабораторией для решения вычислительных задач. В статье также рассматривается подход к вычислительным задачам с учетом стоимости и вычислительных ресурсов AWS», – говорит Винсент Фузаро, главный автор материала и старший научный сотрудник LPM.

«Решение AWS стабильное, надежное, гибкое и экономичное, – говорит Тонеллато. – Его хочется рекомендовать всем».

Тонеллато создает имитационные модели в сервисе Amazon EC2, который предоставляет масштабируемые вычислительные ресурсы в облаке. Инстансы Amazon EC2 разработаны для упрощения разработки вычислительных решений при любом масштабе и позволяют выделять вычислительные ресурсы в облаке за считаные минуты.

Лаборатория Тонеллато в восторге от своего решения на базе AWS. «Количество генетических тестов, доступных докторам и больницам, постоянно растет, – поясняет Тонеллато, – а их стоимость может быть очень и очень высокой. Мы пытаемся определить, какие тесты приводят к лучшим результатам в плане лечения пациентов. Мы считаем, что наши модели позволят значительно сократить время, которое обычно уходит на определение наиболее перспективных тестов, протоколов и исследований, – как для получения лицензии Управления по санитарному надзору за качеством пищевых продуктов и медикаментов, так и непосредственно для клинического применения», – добавляет он.

Подробнее о работе с большими данными на AWS см. на странице сведений о работе с большими данными.

Подробнее о геномных исследованиях в облаке см. на странице сведений о геномике на AWS.