Amazon Web Services ブログ

Amazon OmicsがSentieonのゲノム解析パイプラインのサポートを開始

本ブログはSentieonのDon FreedとBrendan Gallagherによるゲスト執筆です。カスタマーが簡単にワークロードをビルド、デプロイそしてスケールできるように、Amazon Omicsは3rd partyのソフトウェア企業やオープンソース パイプラインによりプレビルドされたReady2Run workflowをサポートしました。詳しくはこちらを参照ください。

2014から、AWS PartnerであるSentieonはアルゴリズム、ソフトウェアやシステム最適化の専門知識を活用し、バイオインフォマティクスアプリケーション向けの高度に最適化されたアルゴリズム開発に注力してきました。本日、同社はReady2RunワークフローとしてAmazon OmicsでDNAseqやTNseqパイプラインを利用できるようにしました。これにより、研究者や臨床医はより簡単にゲノムデータの分析が可能となります。

SentieonのDNAseqとTNseqパイプラインは、生殖細胞系や体細胞系のバリアントコールに関するBroad InstituteのGATKベストプラクティスパイプラインに合致する結果を提供します。SentieonのDNAscopeは、GATKと比較してより高速な実行時間を維持しながら、バリアントコールのエラーを削減して精度向上できます。Sentieonはまた、ジョイントコール、ロングリードアラインメントやバリアントコール、UMIタグリード処理のためのツールも提供しています。

SentieonのReady2Runワークフローは、ゲノム解析のための堅牢で、スケーラブル、タイムリーなソリューションを提供します。Ready2Runワークフローは、3rd partyのソフトウェア企業やオープンソース パイプラインによりプレビルドされたワークフローセットです。数クリックまたは1つのAPIコールで、顧客はプレビルドされたパイプラインを実行できます。Ready2Runワークフローは、予測可能な価格を顧客に提供するため実行毎の料金設定になっています。Sentieonは、9つのReady2Runワークフローをサポートしており、アライメントやショートリードとロングリートの生殖細胞系および体細胞系のバリアントコールのためのワークフローが含まれています。

図1: Amazon OmicsでSentieonのReady2Runワークフローの実行毎の価格リストと推定実行時間の表示例

Sentieon Ready2Runワークフローは、UCSC hg19だけでなくGRCh38とGRCh37の複数のバージョンを含む5つの異なるリファレンスゲノムをサポートしています。これにより、下流のデータ解析と最適に統合できるリファレンスゲノムを柔軟に選択できます。

Sentieonの既存顧客は、既存のライセンス契約を通して本日からAmazon OmicsでSentieonを利用開始できます。Sentieonの新規顧客は、Sentieonソフトウェアの2週間の無償評価ライセンスを自動的に受け取ります。なお、本番環境ではアクティブなSentieonライセンスが必要です。

サポートパイプライン

Amazon OmicsでのSentieon Ready2Runワークフローは、初回リリースでは9つのパイプラインがサポートされています。Sentieon 生殖細胞系ワークフローは、Sentieon HaplotyperまたはSentieon DNAscopeバリアントコーラーを利用した、アラインメント(FASTQをインプットとする)、前処理、そして生殖細胞系バリアントコールをサポートしています。DNAscopeを利用したバリアントコールは、Illumina、Element Biosciences、Ultima Genomicsと MGI/Complete GenomicsのDNAscopeモデルファイルを利用して、プラットフォーム特有のデータバイアスを修正し、さらにバリアントコールの精度を向上できます。バリアントコールは、単一サンプルコールセット用のVCFフォーマットまたは、ジョイントコール後に統合するためのgVCF形式のどちらかで出力されます。

Sentieonの体細胞系ワークフローは、Sentieon TNseqによるアラインメント、前処理そして体細胞系のバリアントコールをサポートし、これは体細胞系バリアントコールのMutect2 GATKベストプラクティスにマッチしています。

Sentieon LongReadワークフローは、PacBio HiFiもしくはOxford Nanopore Technologiesのいずれかのデータをサポートします。アラインメントと生殖細胞系構造バリアントは両方のワークフローでサポートされていますが、PacBio HiFiワークフローは追加で生殖細胞系の小さなバリアンコールもサポートしています。

すべてのパイプラインは、他のバイオインフォマティクスツールで使用したり、後のリファレンスのために保存できるアナリティクス対応されたCRAMファイルを生成します。CRAMファイルは可逆データ圧縮アルゴリズムで効率的に圧縮されており、提供されたファイルから効率的にリード情報が維持されます。

Sentieonパイプラインは、Amazon Omicsでプライベートワークフローとして実行することもできます。Sentieonワークフローをプライベートワークフローとして実行するには、Sentieonのgithub repositoryの手順を参照ください。

総論

SentieonのReady2Runワークフローは、一貫性、正確性そして大規模実行される効率的なゲノム解析パイプラインをの実行を顧客に提供します。

SentieonのReady2Runワークフローの開始するには、Amazon Omicsコンソールへアクセスしてください。

各ワークフローの価格詳細を知りたい場合は、Amazon Omics Ready2Runワークフローの料金を参照ください。

著者

Don Freedは、Sentieon, Inc.のシニアバイオインフォマティクス サイエンティストで、ゲノムディスカバリーに情熱を注いでいます。、ジョンズ・ホプキンス医学校とケネディ クリーガー インスティテュートで大学院研究を行なっており、体細胞モザイク変異体と自閉症スペクトラム障害との関連を研究してiいました。

Brendan Gallagherは、Sentieon, Inc.の事業開発責任者です。彼は、バイオインフォマティクスのソフトウェアツールに関して10年ほどの経験があります。Sentieonへの入社前は、BioSynthemaの化学とウェットラボで、承認されたプレシジョン・メディシン「Lutathera」の開発をサポートしていました。 Lutathera はがん患者へのペプチド受容体放射性核種療法で、St. LouisのBioSynthemaで開発され、現在ではNovartisが販売しています。

翻訳はプロトタイプソリューションアーキテクト 小泉が担当しました。原文はこちらです。