Часто задаваемые вопросы об AWS HealthOmics

Общие вопросы

AWS HealthOmics – это специально разработанный сервис, который помогает организациям здравоохранения и медико-биологических наук, а также их партнерам по разработке ПО хранить, запрашивать и анализировать геномные, транскриптомные и другие данные различных научных дисциплин, а затем генерировать из них выводы для улучшения здоровья. Он поддерживает крупномасштабный анализ и совместные исследования.

AWS HealthOmics предоставляет масштабируемые рабочие процессы и интегрированные инструменты для подготовки и анализа данных различных научных дисциплин, а также автоматически выделяет и масштабирует базовую инфраструктуру, чтобы вы могли посвятить больше времени исследованиям и инновациям. AWS HealthOmics поддерживает крупномасштабный анализ и совместные исследования.

AWS HealthOmics Omics может обрабатывать данные непосредственно из Простого сервиса хранения данных Amazon (S3) или хранилища AWS HealthOmics с помощью частных рабочих процессов AWS HealthOmics и рабочих процессов Ready2Run. Можно импортировать такие данные, как файлы необработанных геномных последовательностей, файлы формата вызова вариантов и наборы аннотационных данных, из Amazon S3 в совместимые с биоинформатикой хранилища AWS HealthOmics и аналитические хранилища. Вы можете контролировать доступ к хранилищам вариантов и аннотаций AWS HealthOmics с помощью AWS Lake Formation и использовать Amazon Athena для упрощения запросов и объединения данных с другими формами данных, такими как медицинские карты здоровья из Amazon HealthLake. Можно также с помощью Amazon Athena упростить использование данных для запросов и объединить их с другими формами данных, например историями болезни из Amazon HealthLake. Кроме того, можно использовать преобразованные данные из Amazon QuickSight для расширенной аналитики. С помощью Amazon SageMaker также можно создавать, обучать и развертывать новые алгоритмы машинного обучения для мультимодальных данных, охватывающих несколько научных дисциплин. Наконец, вы также можете использовать Amazon EventBridge для публикации событий в рамках своей архитектуры, управляемой событиями.

Предусмотрено два типа хранилищ данных: одно для необработанных биологических данных и второе для данных вариантов и аннотаций. Хранилища AWS HealthOmics может импортировать справочные геномы в формате FASTA и отформатированные файлы необработанных последовательностей FASTQ, BAM и CRAM в архивах gzip. Хранилища AWS HealthOmics для аналитических данных могут импортировать файлы в формате (g)VCF, содержащие данные вариантов, а также файлы VCF, GFF и TSV/CSV, содержащие геномные аннотации. Рабочие процессы AWS HealthOmics позволяют считывать любые данные, поддерживаемые заданным определением рабочего процесса, и применять инструменты из хранилища AWS HealthOmics или Amazon S3.

Рабочие процессы AWS HealthOmics поддерживают определения рабочих процессов, соответствующие спецификациям WDL 1.1 или Nextflow 22.04.0 DSL2. В настоящее время инструменты, на которые ссылаются рабочие процессы, должны быть встроены в контейнеры, совместимые с OCI, и сохранены в частном реестре в Реестре эластичных контейнеров Amazon (ECR). Определения рабочих процессов должны охватывать конкретные окончательные выходные данные, а промежуточные результаты удаляются по завершении рабочего процесса. Кэширование выполнений или задач рабочих процессов в настоящее время не поддерживается.

Частные рабочие процессы позволяют использовать собственные сценарии биоинформатики, написанные на двух наиболее часто используемых языках рабочих процессов – WDL и Nextflow. Эти частные рабочие процессы можно запускать одним выполнением, которое называется запуском. В частных рабочих процессах вы платите только за запросы. Счета выставляются отдельно за типы инстансов Omics и отдельно – за хранилище запусков. Все задачи в вашем рабочем потоке связываются с инстансом, который лучше всего подходит для заданных в них ресурсов.

Рабочие процессы Ready2Run – это готовые рабочие процессы, созданные ведущими сторонними компаниями-разработчиками программного обеспечения, такими как Sentieon, Inc., NVIDIA и Element Biosciences, а также стандартные конвейеры с открытым исходным кодом, такие как рабочий процесс по передовым методам GATK от Института Броуда и AlphaFold для прогнозирования структуры белков. Вы можете просто использовать рабочие процессы Ready2Run для обработки данных с помощью наиболее часто используемых рабочих процессов, таких как Germline и GATK-8P от Института Броуда. Рабочие процессы Ready2Run оплачиваются за выполнение по заранее определенной цене. Это означает, что за каждый рабочий процесс взимается одинаковая цена.

Конфиденциальность и безопасность

AWS HealthOmics соответствует требованиям HIPAA. Можно использовать средства контроля доступа на основе атрибутов, чтобы определить, кому разрешен доступ к ресурсам AWS HealthOmics. Полностью постоянное хранилище поддерживает ключи, управляемые клиентами. Разрешения для строк и столбцов можно применять также к хранилищам аналитических данных AWS HealthOmics. AWS HealthOmics API интегрированы с журналами AWS CloudTrail и Amazon CloudWatch, что дает возможность генерировать подробные журналы аудита происхождения данных и доступа.

AWS HealthOmics соответствует требованиям HIPAA. Если вы храните защищенную медицинскую информацию (PHI) в AWS, вам необходимо использовать BAA. В BAA можно быстро войти через Интернет с помощью AWS Artifact.