Рабочие процессы

  • HealthOmics предлагает два типа рабочих процессов: частные рабочие процессы и рабочие процессы Ready2Run. Частные рабочие процессы – это настраиваемые рабочие процессы, которые позволяют использовать собственные сценарии биоинформатики, написанные на наиболее часто используемых языках рабочих процессов. Рабочие процессы Ready2Run – это готовые конвейеры биоинформатики, созданные с учетом стандартного отраслевого анализа, которые позволяют быстро приступить к работе без написания кода. 

  • Частные рабочие процессы HealthOmics можно создавать с применением языков Nextflow, WDL и CWL. Сведения о поддерживаемых версиях см. в документации.

  • HealthOmics предлагает широкий спектр рабочих процессов Ready2Run: от GATK и AlphaFold авторства Broad Institute до рабочих процессов сторонних издателей, таких как NVIDIA, Element Biosciences, Sentieon и Ultima. Полный список доступных рабочих процессов Ready2Run можно посмотреть здесь.

  • Да, HealthOmics может работать под управлением моделей bioFM, таких как NVIDIA NIMS, AlphaFold и ESMFold. Вы можете организовать несколько моделей bioFM за один рабочий процесс, разблокировав масштабируемые конвейеры по разработке лекарственных препаратов. Например, рабочие процессы разработки лекарств, использующие модели bioFM, см. в репозитории рабочих процессов разработки лекарств на GitHub.

  • Чтобы запустить свой первый частный рабочий процесс, вам необходим сценарий рабочего процесса, написанный на Nextflow, WDL или CWL. Кроме того, все инструменты и зависимости должны быть помещены в контейнеры и сохранены в частном репозитории ECR. Входные данные могут быть предоставлены в S3 или считаны из хранилища последовательностей HealthOmics.

  • Управлять ресурсами частных рабочих процессов можно с помощью групп запуска. Группы запуска позволяют управлять максимальным количеством одновременных запусков, максимальной продолжительностью выполнения, виртуальными и графическими процессорами запусков, которые назначены группе запуска. Кроме того, HealthOmics предоставляет инструменты для подбора оптимального размера, такие как анализатор запуска, которые помогают оптимизировать распределение ресурсов и повысить эффективность работы. 

  • Частные рабочие процессы HealthOmics предлагают два варианта хранения данных для запуска: статическое хранилище и динамическое хранилище. При использовании статического хранилища для запуска файловая система фиксированного размера предоставляется в начале запуска и используется задачами промежуточного хранения файлов во время выполнения. По завершении запуска выходные данные запуска экспортируются в S3, а файловая система выводится из резерва. Динамическое хранилище запуска автоматически масштабируется вертикально и горизонтально в соответствии с вашими потребностями в хранении в течение всего времени запуска, обеспечивая более быстрое выделение ресурсов. Динамическое хранилище запуска рекомендуется использовать для быстрых итеративных циклов разработки и небольших краткосрочных конвейеров. Статическое хранилище запуска подходит для больших рабочих процессов. Оно обеспечивает более высокую пропускную способность файловой системы из расчета на один ГиБ и меньшую стоимость за один ГиБ по сравнению с динамическим хранилищем.

  • Рабочие процессы HealthOmics предоставляют CloudWatch журналы в режиме реального времени во время запуска и дополнительные журналы после завершения запуска. EventBridge можно использовать для создания автоматических оповещений о выбранных вами условиях. 

  • Да, рабочие процессы HealthOmics можно использовать совместно с разными аккаунтами AWS в одном регионе с помощью функции совместного использования ресурсов. Чтобы поделиться рабочим процессом, вам нужен идентификатор аккаунта AWS, с которым вы хотите поделиться. Если вы поделитесь рабочим процессом, получателю будет отправлено соответствующее приглашение. Получатель должен принять запрос на совместное использование, прежде чем он сможет запустить предоставленный ему рабочий процесс. Владелец рабочего процесса может отозвать доступ в любое время, а получатель не может изменить или удалить общий рабочий процесс. 

  • Файлам, используемым в качестве входных данных для запуска из S3 и хранилища последовательностей HealthOmics, присваивается уникальный ETag для идентификации файлов, контейнерам, хранящимся в вашем частном репозитории ECR, присваивается уникальный хэш, а рабочие процессы после создания становятся неизменными для обеспечения полной воспроизводимости запусков. Каждому запуску присваивается уникальный в глобальном масштабе uuid, который можно использовать для идентификации каждого уникального запуска, результатов запуска и связанных журналов. Этот uuid можно подключить к вашим внутренним лабораторным информационным системам (LIMS), электронным лабораторным записным книжкам (ELN) или системам управления образцами для обеспечения отслеживаемости и выполнения требований к воспроизводимости.  

  • Клиенты могут использовать рабочие процессы и хранилища данных вместе или в качестве автономных решений. Рабочие процессы HealthOmics совместимы с S3 и хранилищем последовательностей либо эталонными хранилищами HealthOmics. Хранилища последовательностей и эталонные хранилища HealthOmics можно использовать с рабочими процессами HealthOmics, Пакетом AWS и другими вычислительными решениями.

Хранилища данных

  • HealthOmics предлагает два типа хранилищ данных: объектно-ориентированные хранилища и хранилища с возможностью запросов. Хранилища, ориентированные на объекты, представляют собой хранилища последовательностей и эталонные хранилища. Они предназначены для экономичного хранения и организации молекулярных файлов. Хранилища с возможностью запроса – это хранилища вариантов и аннотаций. Они предназначены для экономичного преобразования данных вариантов и аннотаций в оптимизированное хранилище для запросов и когортирования. В совокупности эти хранилища предназначены для обеспечения надежного (доступного, интероперабельного, многоразового) хранения образцов, запросов, когортирования и извлечения образцов в масштабе петабайтов. 

  • Хранилища данных HealthOmics позволяют экономить различными способами. Хранилище последовательностей использует многоуровневое распределение и сжатие в зависимости от использования, позволяя снизить стоимость хранения объектов, к которым не обращались в течение 30 дней. Это может привести к значительной экономии по сравнению с традиционным объектным хранилищем AWS.

    Хранилища вариантов и аннотаций HealthOmics являются хранилищами с нулевым использованием ETL, поэтому при запросе вы платите только за хранилище и отсканированные данные. Экономия достигается за счет снижения стоимости ETL и разделения данных вариантов и аннотаций, чтобы не приходилось реплицировать данные вариантов при необходимости изменения аннотаций. Кроме того, поскольку хранилища вариантов разбиты на разделы по информации об образцам, запросы на основе выборок сканируют меньше данных, что приводит к дальнейшему уменьшению затрат на последующем этапе.

  • Каждое хранилище данных предназначено для разных типов данных. Эталонные хранилища HealthOmics поддерживают файлы FASTA. Хранилища последовательностей HealthOmics поддерживают файлы FASTQ, uBAM, BAM и CRAM. Хранилища вариантов поддерживают извлечение данных из файлов VCF. Хранилища аннотаций поддерживают извлечение данных из GFF, TSV, CSV, VCF.

  • Общий объем данных и количество объектов, которые можно хранить в AWS HealthOmics, практически не ограничены. Несмотря на то что в каждом хранилище действуют регулируемые квоты на поддерживаемые размеры и количество файлов, файлы можно добавлять по мере необходимости, поскольку клиенты обычно содержат в хранилище до 10 петабайт.

  • Хранилища данных HealthOmics построены с соблюдением норм надежности и отказоустойчивости Amazon S3, включая объекты, хранящиеся с избыточным резервированием на нескольких устройствах и зонах доступности в рамках Региона AWS. Хранилище последовательностей сохраняет и отслеживает семантическую идентичность объекта, обеспечивая хранение содержимого файла на протяжении циклов активации и архивирования.

  • Хранилища последовательностей HealthOmics можно напрямую интегрировать с большинством аналитических инструментов с помощью URI доступа к объектам к S3 или с помощью сопутствующих инструментов. Каждый объект, хранящийся в хранилище последовательностей, имеет уникальный URI S3, который можно использовать для чтения в большинстве систем, совместимых с S3. Если системе требуется файловый интерфейс, можно использовать Mountpoint for S3, чтобы сделать набор для считывания или префикс хранилища последовательностей доступным для чтения в виде смонтированного файла. Если требуется внести пользовательские изменения настроек, интеграцию можно выполнить с помощью Amazon SDK или диспетчера переноса HealthOmics.

  • Хранилище последовательностей HealthOmics предназначено для хранения статических молекулярных данных, к которым периодически и часто обращаются. Хранилище последовательностей имеет встроенные функции сжатия и многоуровневого хранения, а также масштабирование чтения объектов, встроенное в S3, поэтому оно подходит для данных любого масштаба с различными уровнями частоты доступа – от ежедневного использования до ежегодного. При каждом потреблении данных создается новый набор для считывания, а хранилище последовательностей взимает плату за хранение сроком не менее 30 дней, поэтому оно не предназначено для временных, мусорных или часто обновляемых файлов.

    Amazon S3 отлично подходит для динамических файлов, которые часто меняются, файлов с коротким сроком хранения и немолекулярных файлов, которые не соответствуют поддерживаемым форматам. Amazon S3 Glacier предлагает различные варианты хранения для файлов, которые необходимо сохранять в целях архивирования данных и обеспечения соответствия нормативным требованиям, но к которым требуется очень редкий доступ.

Безопасность и конфиденциальность