Возможности AWS HealthOmics

AWS HealthOmics облегчает хранение, обработку запросов и анализ геномных, транскриптомных и других омических данных, а также формирование выводов из этих данных. Это упрощает и ускоряет процессы хранения и анализа мультиомической информации для исследовательского и клинического применения, предоставляя возможность сосредоточиться на получении более глубоких выводов из имеющихся данных.

Хранилище AWS HealthOmics позволяет эффективно, с низкими затратами хранить петабайты омических данных, обеспечивая возможность научных открытий в масштабах популяций. Частные рабочие процессы AWS HealthOmics и рабочие процессы Ready2Run автоматизируют предоставление и масштабирование вычислительной инфраструктуры, что позволяет запускать конвейеры биоинформационного анализа в производственных масштабах, тратить меньше времени на управление инфраструктурой и больше – на проведение исследований. AWS HealthOmics поставляется с набором готовых рабочих процессов Ready2Run, стоимость которых указана за один запуск. Аналитика AWS HealthOmics упрощает подготовку омических данных для мультимодального анализа, позволяя объединить мультиомические данные с данными из медицинских карт для подбора более точной, персонализированной терапии. Данные функции также отвечают требованиям HIPAA.

Общие вопросы

Хранилище AWS HealthOmics совместимо с такими форматами биоинформационных файлов, как FASTQ, BAM и CRAM, что позволяет эффективно и недорого хранить, анализировать и совместно использовать такие данные. Эти файловые форматы хранятся как объекты читаемых множеств в хранилище последовательностей. Эталонные геномы можно также хранить в формате FASTA. Данные импортируются в виде неизменяемых объектов с уникальными идентификаторами для поддержки рабочих нагрузок, требующих строгого подтверждения происхождения данных. Доступ к отдельным объектам данных, включая эталонные объекты и объекты читаемых множеств, можно контролировать с помощью тегов и элементов управления доступом на основе атрибутов через управление идентификацией и доступом (AWS IAM). Для сокращения расходов на долгосрочное хранение объекты данных, к которым в течение 30 дней доступ не производился, автоматически перемещаются в архивный класс хранения. Активировать архивные объекты можно в любой момент с помощью вызова API.

AWS HealthOmics помогает запускать масштабные биоинформационные рабочие процессы. Вы можете выбрать рабочие процессы Ready2Run или использовать собственные частные рабочие процессы для обработки биологических данных без необходимости управления базовой инфраструктурой.

Рабочие процессы Ready2Run – это готовые рабочие процессы, разработанные ведущими сторонними компаниями-разработчиками программного обеспечения, такими как Sentieon, Inc., NVIDIA и Element Biosciences, а также стандартные конвейеры с открытым исходным кодом, например рабочий процесс по передовым методам GATK от Института Броуда и AlphaFold для прогнозирования структуры белков. Вы можете просто использовать рабочие процессы Ready2Run для обработки данных без необходимости управлять программными инструментами или сценариями рабочего процесса. Рабочие процессы Ready2Run оплачиваются за выполнение по заранее определенной цене.

Частные рабочие процессы позволяют использовать собственные сценарии рабочих процессов, написанные на языке описания рабочих процессов (WDL) или Nextflow, которые являются двумя наиболее часто используемыми языками таких процессов. Эти частные рабочие процессы можно запускать одним выполнением, которое называется запуском. В частных рабочих процессах вы платите только за запросы. Счета выставляются отдельно за типы инстансов Omics и отдельно – за хранилище запусков. Все задачи в вашем рабочем потоке связываются с инстансом, который лучше всего подходит для заданных в них ресурсов.

С помощью AWS HealthOmics можно быстро загружать и преобразовывать в таблицы Apache Iceberg такие форматы геномных данных, как (g)VCF, GFF3 и TSV/CSV. Геномные данные можно сделать доступными через аналитические сервисы, например Amazon Athena. Можно преобразовывать как вариантные (полученные из отдельного образца), так и аннотационные данные (известную информацию о позициях геномов). Доступ к хранилищам аналитики можно контролировать с помощью AWS Lake Formation, что при реализации тонкого контроля доступа упрощает выполнение запросов к различным источникам данных. Так, в целях развития точной медицины можно безопасно объединять геномные данные человека с историей его болезни из Amazon HealthLake (там может содержаться история лечения, назначенных лекарств или результаты лабораторных анализов).

AWS HealthOmics упрощает совместную работу исследователей посредством присвоения тегов, настройки разрешений и безопасного обмена данными с коллегами. Это упрощает процесс открытия ваших омических данных для поиска, доступа, совместного и повторного использования. С помощью специфичных для конкретной области метаданных можно связывать хранилища данных на AWS HealthOmics с другими омическими и медицинскими данными, тем самым облегчая мультиомический и смешанный анализ. Для сбора информации о происхождении данных AWS HealthOmics архивирует все метаданные рабочих процессов в журналах CloudWatch и позволяет легко хранить и запрашивать эту информацию. Эту информацию можно экспортировать из CloudWatch в S3 для долгосрочного хранения. Эта информация поможет отслеживать, какие алгоритмы использовались с входными данными для генерации выходных данных в соответствии с требованиями.

Безопасность, конфиденциальность и соответствие требованиям

AWS HealthOmics соответствует требованиям HIPAA. Для тонкого определения доступа к данным и возможностей управления ими можно применить средства контроля на основе атрибутов. Встроенная функция комплексного ведения журналов и сбора информации о происхождении данных позволяет узнать, к каким данным кто и когда обращался.