Amazon OmicsでNVIDIA Parabricks Ready2Runワークフローが簡単に実行可能に

本ブログはNVIDIAのHarry Cliffordによるゲスト執筆です。カスタマーが簡単にワークロードをビルド、デプロイそしてスケールできるように、Amazon Omicsは3rd partyのソフトウェア企業やオープンソースパイプラインによりプレビルドされたReady2Run workflowをサポートしました。詳しくはこちらを参照ください。

ヒトゲノムのシーケンシングコストが下がるにつれ、シーケンシングデータの量は指数関数的に増加しています。個人の全ゲノムをシーケンシングすると、約100ギガバイトのRawデータがシーケンシング装置から直接生成されます。多くのゲノム解析パイプラインは、高速かつ大量に生成される膨大なレベルのRawデータの対応に苦労しており、これは低コストで高速な解析パイプラインのニーズが高まっているためです。希少疾患の重要な治療を必要とする患者のシーケンシングでの利用もしくは、集団規模のゲノム研究での利用の場合でも、全ゲノムシーケンシングは、臨床ワークフローと創薬の基本的なステップとなりつつあります。

NVIDIA Parabricksは、GPUで高速化したGATKやDeepVariantのように最適化され、AIベースの業界標準ゲノムツールを含む高速ゲノムアプリケーションスイートです。NVIDIA GPUを利用することで、ParabricksはCPUベースのツールよりも高速解析を提供し、コンピューティングコストを削減できます。現在、13の生殖細胞系と体細胞系ワークフローが、Amazon OmicsでReady2Runワークフローとして利用可能です。Ready2Runワークフローは、3rd partyのソフトウェア企業やオープンソースパイプラインによりプレビルドされたワークフローセットです。数クリックまたは一つのAPIコールで、顧客はプレビルドされたパイプラインを実行できます。Ready2Runワークフローは、予測可能な価格を顧客に提供するため実行毎の料金設定になっています。

NVIDIAはBroad InstituteのGATKチームを含む様々なチームと協力して精度を検証し、CPUネイティブなGATKバージョンと機能的に同等の結果が出ています。

Amazon OmicsのParabricks Workflow:

図1: Amazon OmicsでNVIDIAのReady2Runワークフローの実行毎の価格リストと推定実行時間の表示例

Parabricksワークフローを実行するのにライセンスは必要ありません。このオープンアクセスポリシーは、高速ゲノム分析を民主化し、世界中の研究者がParabricks解析ワークフローを使用して達成した結果を再現できるようにするというNVIDIAの目標に合致しています。エンタープライズレベルのサポートを希望するユーザー向けに、NVIDIAはNVIDIA AI Enterpriseを提供しています。

NVIDIA AI Enterpriseで、組織はエンタープライズサポートにフルアクセスできます。このサポートは、保証されたレスポンスタイム、優先セキュリティ通知、そしてゲノミクスワークフローのトラブルシューティングや最適化のためのParabricksエキスパートへのアクセスが含まれます。NVIDIA AI Enterpriseは、開発とデプロイを加速、合理化するよう設計されています。

サポートパイプライン:

ParabricksのReady2Runワークフローは、アラインメント、生殖細胞系バリアントコール、体細胞バリアントコール、そして新しいリファレンスゲノムへのリアラインメントのソリューションを提供しています。各ワークフローのランタイムとコストは透明性があり、予測可能です。加えて、すべてのワークフローは、事前設定及びテストされているので、開始にあたり追加セットアップは不要です。

図2: Amazon Omicsで利用可能な13のNVIDIA Parabricks Ready2Runワークフローは、50 x somatic workflowは勿論のこと、5x, 30xと50x Germline DeepVariantとHaplotypeCaller workflowにも及びます

アラインメント

FQ2BAMワークフローは、1つ以上のFASTQファイルのペアをインプットとしてBAM/CRAMのアウトプットを生成し、BWA-MEMの高速化バージョンとGATK4のベストプラクティスで使用される前処理ツールを提供します。このワークフローは、CPUネイティブバージョンと機能的に同等の結果を提供しますが、Amazon Omicsだと1時間で30倍のゲノムをアライメント可能です。

生殖細胞系

Parabricksでは出力としてVCFを生成するGermline HaplotypeCallerとDeepVariant workflowがあります。WGS用のGemline HaplotypeCallerは、HaplotypeCallerを使用し、GATK4のベストプラクティスを複製して、Amazon Omicsで30倍の全ゲノムに対して機能的に同等の結果を提供します。

WGS用のGermline DeepVariant workflowは、高速バージョンのDeepVariantを利用しています。これは、コールの精度を向上させるディープラーニングベースのバリアントコーラーです。DeepVariantは、CNNアーキテクチャに基づくAIベースのモデルで、各ゲノムのプラットフォームまたは、シーケンシングラボの出力を使用し、データに基づいた再トレーニングで精度を高めることが可能です。複数のシーケンシング機器用に選択可能なDeepVariantモデルが利用でき、このワークフローはAmazon Omicsで30倍の全ゲノムを解析可能です。

体細胞

Parabricks WGS 50x somatic workflowは、腫瘍FASTQファイルと、オプションで普通のFASTQファイル及びknownSitesファイルを処理して、腫瘍または腫瘍/正常解析を生成します。アウトプットはVCFフォーマットです。このワークフローは、mutect2を利用し、体細胞解析のためのGATK4ベストプラクティスを複製し、Amazon Omicsでより深くシーケンスされた(50倍)全ゲノムのペアからアラインとバリアントコールします。

リアラインメント

BAM2FQ2BAMワークフローでは、リードの抽出と新しいリファレンスゲノム(例えばT2Tのような完全ヒトゲノム)のリアラインメントできます。このリアラインメントのプロセスは、通常とても遅く、計算コストが高くなりますが、Parabricksの高速ワークフローを利用すると10倍のスピードアップが達成できます。

このワークフローは、BAMファイルのアラインメントをとき、BAMからFASTQフォーマットに反転し、FASTQをリアラインメントして、異なるリファレンスに新しいBAMファイルを生成します。

総論

NVIDIA Parabricks Ready2Runワークフローで、顧客はクラウド上で高速化され、AIドリブンなパイプラインを簡単に実行できます。

NVIDIA Parabricks Ready2Runワークフローを開始するには、Amazon Omicsコンソールへアクセスしてください。

各ワークフローの価格詳細を知りたい場合は、Amazon Omics Ready2Runワークフローの料金を参照ください。

NVIDIA AI Enterpriseを通じたNVIDIA Parabricksエンタープライズサポートを詳しく知りたい場合は、NVIDIAにお問い合わせください。

著者

Harry Cliffordは、NVIDIAのゲノミクス製品リードで、AI、ハイパフォーマンスコンピューティング(HPC)やデータ解析スタックのNVIDIAの専門知識を活用して、高速な高精度ソリューションでゲノミクスワークフローに取り組んでいます。バックグラウンドは、バイオインフォマティクスと機能ゲノミクスで、オックスフォード大学でPhDを取得し、バイオ医薬品業界やケンブリッジ大学での博士研究員の経験や、バイオテクノロジー領域での起業家経験があります。

翻訳はプロトタイプソリューションアーキテクト小泉が担当しました。原文はこちらです。

Amazon Web Services ブログ