Нью-Йоркская школа медицины Икана медицинского центра Маунт-Синай – международный лидер в области медицинского и научного обучения, биомедицинских исследований и медицинских услуг. Школа занимается развитием биомедицины и оказывает профессиональные клинические и медицинские услуги пациентам. В тесном сотрудничестве с больницей Маунт-Синай школа медицины Икана обслуживает одну из самых разнообразных и сложных групп пациентов в мире.

Исследователи и практикующие врачи школы медицины Икана исследуют генетические предпосылки рака молочной железы и яичников. Доктора Джон А. Мартигнетти и Питер Р. Доттино из центра Маунт-Синай и специалисты из компании Station X занимаются глубоким анализом данных более 2000 цепочек ДНК и генеративных линий больных раком молочной железы и яичников. Данные предоставляет консорциум «Атлас ракового генома» (TCGA). TCGA – это сложный согласованный проект по развитию изучения молекулярных основ рака с помощью технологий генетического анализа, включая крупномасштабное секвенирование генома. TCGA организован Национальным институтом рака (NCI) и Национальным институтом исследования генома человека (NHGRI), двумя из 27 институтов и центров национальных институтов здравоохранения Министерства здравоохранения и социальных служб США.

Эта серьезная задача требует значительных вычислительных ресурсов, так как ученые анализируют более 100 ТБ данных, затем разрабатывают новые гипотезы и вновь анализируют данные. Среди всех женщин с унаследованным генетическим риском развития рака молочной железы или яичников примерно у половины присутствуют мутации генеративной линии генов BRCA1 или 2. Исследователи пытаются обнаружить отсутствующие генетические связи в генах тех, у кого нет мутаций BRCA1/2.

Совместно с компанией Station X доктора Мартигнетти и Доттино смогли заручиться поддержкой поставщика сервисов, способного предоставить надежную и безопасную аналитическую платформу для этих задач. Station X разрабатывает GenePool™, программную платформу для исследования генома, которую могут использовать ученые и клинические исследователи, занимающиеся ранним и клиническим изучением генома человека.

Чтобы извлекать информацию из терабайтов геномных данных и при этом обеспечивать их защиту, требуется применять высокопроизводительную платформу с хранилищем для больших данных и жестким контролем доступа. Очевидно, что тут следует воспользоваться технологией облачных вычислений.

Amazon Web Services (AWS) стала базой для геномной платформы GenePool компании Station X, которая может осуществлять динамическое масштабирование для анализа десятков тысяч геномов в минуту. «AWS – естественный выбор для создания программных сред, – говорит Сандип Санга, вице-президент по производству компании Station X. – Мы разработали GenePool на платформе AWS, чтобы дать возможность ученым анализировать огромные массивы данных и управлять ими. И мы выбрали AWS, потому что она предлагает ряд сервисов с высокими конкурентными преимуществами». Использование AWS позволило Station X сконцентрировать свои усилия на разработке платформы GenePool, помогающей исследователям быстро и безопасно анализировать потоки данных.

Исследователям центра Маунт-Синай было абсолютно необходимо обеспечить безопасность данных. «Конфиденциальность данных пациентов для нас на первом месте, особенно с учетом объемов производимых данных, – заявляет Мартигнетти. – Это довольно сложная задача. Но благодаря AWS и GenePool нам удалось добиться необходимого уровня конфиденциальности». Как поясняет Санга, с помощью AWS Station X предоставляет допущенным исследователям доступ к данным «Атласа генома рака», позволяя авторизованным пользователям «обрабатывать и изучать соматические и генеративные мутации в ДНК пациентов с раком молочной железы и яичников».

В качестве надежной централизованной системы управления пользователями и учетными данными центр Маунт-Синай использует AWS Identity and Access Management (IAM) для аутентификации пользователей и списки контроля доступа AWS (ACL) для управления доступом различных аккаунтов. Amazon Simple Notification Service (Amazon SNS) и Amazon Simple Email Service (Amazon SES) используются для работы с исходящими сообщениями для администраторов и конечных пользователей, получающих уведомления и оповещения.

С помощью Elastic Load Balancing компания Station X поддерживает масштабируемую архитектуру сети и API, надежно и безопасно развернутую в среде Amazon VPC, с изолированными от Интернета хранилищами данных и сервисами промежуточного уровня. «Изоляция хранилищ данных и сервисов промежуточного уровня от Интернета гарантирует защищенность серверов и значительно сокращает риски безопасности», – считает Санга.

С помощью облака AWS исследователи Маунт-Синай управляют и извлекают полезную информацию из огромного объема генетических данных, хранящегося в Amazon Simple Storage Service (Amazon S3) и частично в Amazon Glacier.

Station X использует Amazon Elastic Block Store (Amazon EBS) для хранения критически важных и особо ценных данных, поскольку для передачи большого количества предварительно обработанных данных для генетического анализа в реальном времени необходимо гибкое хранилище с высокой производительностью.

Amazon Elastic Compute Cloud (Amazon EC2) отвечает за встроенные статистические модели GenePool, визуальную фильтрацию и широкую интеграцию с генетическими и клиническими базами данных, а также поддерживает интеграцию с веб-сервисами RESTful. «Эластичная природа Amazon EC2 позволяет заниматься серьезной обработкой и анализом данных на экономичной и динамически масштабируемой платформе», – говорит Санга. Маунт-Синай использует выделенное хранилище Amazon S3 для безопасного хранения генетических данных пациентов в состоянии готовности к анализу в GenePool. На рис. 1 представлена архитектура центра Маунт-Синай.

mount-sinai-arch-diag

Рис. 1. Архитектура исследовательской платформы центра Маунт-Синай

Для мониторинга эффективности работы сервисов GenePool используется Amazon CloudWatch. Amazon ElastiCache отвечает за централизованное кэширование, позволяющее быстро вернуть результаты анализа больших наборов данных. «Благодаря платформе для генетического анализа, которую мы создали на AWS, исследователи получают ответы на важные вопросы за считаные минуты и даже секунды», – гордится Санга.

С помощью AWS и GenePool доктора Мартигнетти и Доттино могут быстро анализировать наборы данных о тысячах пациентов из банка данных проекта «Атлас генома рака» и выделять генетические отклонения в генах-кандидатах, соответствующих их научным гипотезам. С помощью перекрестного анализа этих генов и других генетических данных доктора Мартигнетти и Доттино смогли включить в список генов-кандидатов новые потенциальные маркеры унаследованного рака молочной железы и яичников.

«До перехода в облако AWS у нас с нашими внешними партнерами не было возможности анализировать такие объемы данных, – говорит Мартигнетти. – Мы не могли эффективно отсеивать данные, анализировать, фильтровать, а это было необходимо для поиска отсутствующих связей».

По словам доктора Санга, размещение GenePool на AWS позволило Station X начать хранить наборы данных для промежуточных клиентов и генетических клиник. «AWS обеспечивает нам серьезные конкурентные преимущества: быстрый доступ к данным, обширное хранилище и огромные вычислительные мощности, – делится Санга. – Исследовательских проектов такого рода на наш век хватит. Данные, требующие анализа, всегда найдутся. Даже когда с нашей помощью исследователи совершают новые открытия, какие-то вопросы все равно остаются. Благодаря AWS у нас есть все необходимое для дальнейшей работы».

Если бы не платформа для безопасного анализа в облаке AWS, медицинские специалисты центра Маунт-Синай не могли бы двигаться дальше в своих исследованиях. «С помощью AWS мы храним исходные файлы в безопасной и экономичной среде с высокой надежностью и доступностью. Без этой среды не было бы и наших исследований, – заключает Мартигнетти. – Но с AWS и GenePool мы надеемся обнаружить мутации, которые прольют свет на отсутствующие связи. Именно из-за этих связей у многих женщин повышен риск возникновения двух изучаемых нами видов рака».

Подробнее о геномных исследованиях в облаке см. на странице сведений о геномике на AWS.