Бэйлорский медицинский колледж расположен в Хьюстоне, штат Техас. В нем находится Центр секвенирования генома человека (HGSC), один из трех центров секвенирования в США, финансируемых на федеральном уровне. Один из проектов HGSC – Группа по исследованию сердечных заболеваний и старения в рамках геномной эпидемиологии (CHARGE). Группа объединяет более 200 ученых из 5 институтов в разных частях мира, работающих над определением генов, которые отвечают за старение и сердечные заболевания. Консорциум проекта CHARGE анализирует генетические образцы и данные о фенотипах из обширного банка групповых исследований Национального института сердца, легких и крови (NHLBI) и других европейских банков исследований. CHARGE и Бэйлорский медицинский колледж совместно работают над секвенированием генов участников исследования и обработкой результатов в аналитическом конвейере Mercury. Данные исследования помогут ученым разобраться, какое влияние могут оказывать генетические вариации на профилактику и лечение сердечных приступов и заболеваний. Бэйлорскому медицинскому колледжу принадлежат 20 секвенирующих машин, которые ежемесячно выдают приблизительно 24 терабазы генетической информации, или около 1 ПБ необработанных данных. В настоящее время в исследование вовлечены более 14 000 участников. Масштаб обрабатываемых данных требует инновационных решений.

DNAnexus предлагает услуги по управлению данными, анализу секвенируемых данных нового поколения и обеспечению безопасной совместной работы для исследователей и центров секвенирования ДНК. Услуги DNAnexus предоставляются посредством единой унифицированной системы, которая масштабируется в соответствии с уникальными академическими и коммерческими требованиями каждого клиента. В числе прочего система включает вычислительную инфраструктуру и инфраструктуру хранилища по требованию, поддерживает биоинформатику и облачные вычисления и предоставляет надежные инструменты для совместной работы с обеспечением соответствия требованиям. Решение DNAnexus предоставляется по модели «платформа как сервис» (PaaS) и основано на инфраструктуре Amazon Web Services (AWS). В настоящее время оно используется научными институтами, государственными исследовательскими лабораториями, биофармацевтическими компаниями и поставщиками диагностических тестов.

На протяжении последнего столетия в рамках исследований, направленных на изучение развития определенных заболеваний, наблюдение за пациентами проводилось на протяжении большей части их жизни. С развитием технологий секвенирования ДНК и обработки огромных объемов данных результаты этих исследований анализируются повторно. Этим и занимается проект CHARGE. Участвующие в проекте ученые по всему миру используют аналитику данных для изучения причин развития и способов профилактики заболеваний.

При этом с ростом эффективности систем секвенирования ДНК и распространением геномного тестирования количество данных, которое приходится анализировать, достигает невиданных значений. В проекте CHARGE уже используется более 430 ТБ данных, и даже простая их передача заинтересованным ученым становится большой проблемой. Раньше жесткие диски с данными зашифровывались и отправлялись более чем 200 участникам проекта CHARGE по почте. Такой подход создавал задержки в обмене информацией и проблемы с безопасностью данных. «Рассылать участникам сотни жестких дисков по почте – это какой-то логистический кошмар, – вспоминает Нараянан Вирарагаван, ведущий программист-исследователь Бэйлорского колледжа. – Данные должны быть зашифрованы на всех этапах. Когда у вас столько ученых и столько же жестких дисков, неудач не избежать, потому что не все будут следовать требованиям к безопасности».

Даже разработка инфраструктуры представляла множество проблем. «На разработку инфраструктуры с уникальными требованиями к хранению данных и вычислениям уходит несколько месяцев, – считает Вирарагаван. – За эти месяцы могут измениться технологии и протоколы, а производительность платформ секвенирования может удвоиться. И получается, что за время, пока вы планировали и оценивали требования к оборудованию, потребности уже выросли вдвое». Колледж также хотел предоставить ученым кросс-платформенные инструменты.

По словам Вирарагавана, проблема локальных вычислений «может поставить проект на колени»: «Нам были нужны инструменты для крупномасштабной работы и хранения огромного количества данных. Нужно было найти новое решение, иначе проект CHARGE уперся бы в ценовой потолок. Обеспечить необходимые вычислительные ресурсы самостоятельно было бы очень сложно, если не невозможно».

Медицинский колледж Бейлора нуждался в экономичном и удобном для работы решении, позволяющем обеспечить безопасное и эффективное взаимодействие в мировом масштабе без задержек, необходимых при создании физической инфраструктуры. «Мы не могли потратить целые месяцы на создание инфраструктуры, нам нужно было эффективно, интерактивно и безопасно обеспечить совместное использование данных», – говорит Верарагаван.

Кроме того, требовалось достаточно гибкое решение, чтобы соответствовать клиническим стандартам и требованиям HIPAA. «Сформулировав и оценив все свои запросы, мы закономерно отдали предпочтение платформе DNAnexus и облаку AWS».

Бэйлорский медицинский колледж обратился к компании DNAnexus, которая предоставляет основанные на API PaaS-услуги по эффективному и безопасному переносу аналитических решений и данных медицинских и исследовательских компаний в облако AWS. DNAnexus помогает клиентам перенести проприетарные алгоритмы в облако, объединить их с ведущими в отрасли инструментами и ресурсами и создать уникальные рабочие процессы. PaaS-сервис DNAnexus полностью построен на AWS, благодаря чему DNAnexus может масштабировать свою систему более чем до 20 000 параллельных вычислительных ядер, 1 ПБ хранилища, миллионов ядер-часов аналитики и сотен тысяч вычислительных задач в облаке AWS. Платформа AWS также предоставила DNAnexus соглашение Business Associates Agreement (BAA), которое позволяет компании оказывать услуги с надлежащим уровнем безопасности и соблюдением требований к медицинским вычислительным системам, принятым в США и по всему миру. AWS позволяет разрабатывать и размещать вычислительные системы, соответствующие требованиям HIPAA.

В проекте CHARGE данные обрабатываются аналитически конвейером Бэйлорского колледжа Mercury. Конвейер Mercury получает файлы необработанных данных с платформы секвенирования и возвращает конечный результат: аннотированный файл определения вариантов с помеченными мутациями, которые могут иметь клиническое значение. Этот файл передается ученым, которые проводят над ним третичный анализ и используют в дополнительных научных исследованиях. Небольшая группа исследователей занимается разработкой инструментов, которые позволяют точнее идентифицировать характеристики каждого генетического маркера. Это позволит повторно обработать имеющиеся данные с учетом свежих результатов изучения предикативных и защитных генов. Платформа DNAnexus дает исследователям возможность сравнивать разные инструменты и делиться ими с коллегами по всему миру.

Компания DNAnexus использует Amazon Simple Storage Service (Amazon S3) и Amazon Glacier для хранения более 1 ПБ геномных данных. Компания DNAnexus создала инструмент командной строки, с помощью которого можно загружать данные ДНК напрямую из инструментов секвенирования в облако, не используя дорогостоящую локальную инфраструктуру. Сам анализ ДНК происходит в сервисе Amazon Elastic Compute Cloud (Amazon EC2). Компания DNAnexus разработала специальную систему очередей для инстансов Amazon EC2, устойчивую к прерываниям при обработке данных.

Для оптимизации расходов для интерактивных сервисов, таких как веб-сайт, портал для клиентов и инструменты визуализации ДНК, а также для серверных облачных сервисов и сервисов управления задачами используются зарезервированные инстансы Amazon EC2.

DNAnexus.arch

Рис. 1. Архитектура HGSC Бэйлорского медицинского колледжа в облаке AWS

Бэйлорский колледж и DNAnexus защищают данные CHARGE за счет управления доступом к конвейеру Mercury в соответствии с рекомендациями AWS. «Мы работаем с конфиденциальной медицинской информацией пациентов, – рассказывает Вирарагаван. – Когда используется только один конвейер и доступ к нему полностью контролируется, среду можно построить таким образом, чтобы риски были минимальными». Строгие протоколы безопасности AWS позволяют DNAnexus предлагать клиентам услуги, отвечающие высочайшим стандартам безопасности, соответствия требованиям и аудита, включая HIPAA, CLIA и другие комплексные стандарты. Омар Серанг, директор по облачным технологиям DNAnexus, рассказывает: «Мы обеспечиваем ресурсами клинические исследования огромных масштабов, для которых необходима вычислительная инфраструктура в надежной и соответствующей всем требованиям среде невероятного размера».

После перехода на AWS с помощью DNAnexus Бэйлорский колледж завершил свой первый анализ за 10 дней – в пять раз быстрее, чем на локальной инфраструктуре – и смог оперативно поделиться результатами. При анализе использовалось 21 000 ядер, по 16 виртуальных ядер в каждом инстансе Amazon EC2 XL. «Облако AWS обеспечивает высочайшую скорость совместной работы даже с данными объемом в сотни терабайтов, – поясняет Вирарагаван. – Централизованная зона обработки данных сокращает использование сетевых ресурсов и позволяет избежать расходов на покупку и обслуживание лишних вычислительных систем».

Это огромный шаг по сравнению с временами, когда колледж рассылал ученым жесткие диски по почте. С помощью AWS и услуг DNAnexus Бэйлорский колледж и проект CHARGE смогли обеспечить ученых, работающих в разных системах, общей средой для совместной работы с аналитическими инструментами. «Любой ученый – на Mac, Linux или Windows – может запускать любые инструменты и работать с данными CHARGE через DNAnexus», – добавляет Вирарагаван. Эндрю Кэрролл, ведущий исследователь DNAnexus по вопросам CHARGE, добавляет: «Облако AWS позволяет сравнивать инструменты и решать, что лучше подходит для каждого конкретного проекта. DNAnexus в облаке AWS также дает ученым возможность делиться своими открытиями с научной общественностью».

Масштабируемость облака AWS позволяет ученым проекта CHARGE собирать еще больше данных об изучаемых заболеваниях. Кроме того, у них появляется возможность идентифицировать защитные гены, охраняющие человека от заболевания, и сделать это быстро и безопасно. «Это отличный пример того, почему стоит перейти в облако AWS, – замечает Кэрролл. – В идеале CHARGE должна выполнять работу с очень большими пиковыми нагрузками за максимально короткое время. Облако AWS позволяет DNAnexus разрабатывать собственные PaaS-решения на базе технологий AWS. Мы можем масштабировать системы DNAnexus до практически неограниченных значений вычислительной мощности и пространства для хранения данных».

И самое главное: DNAnexus и AWS позволили ученым CHARGE сосредоточиться на науке, а не на инфраструктуре. «Чтобы обновлять инфраструктуру в ответ на каждое серьезное изменение, необходимы большие инвестиции, не говоря уже о месте под оборудование, – говорит Вирарагаван. – Вычисления такого типа выполняются не один раз, их объемы растут экспоненциально. Перед научным сообществом стоит множество проблем. Но сейчас, благодаря AWS и DNAnexus, мы можем сосредоточиться на науке, а не на инфраструктуре».

Подробнее о геномных исследованиях в облаке см. на странице сведений о геномике на AWS.