テキサス州ヒューストンのベイラー医科大学には、ヒューマンゲノムシークエンシングセンター (HGSC) があります。これは、米国で連邦政府の資金によって運営される 3 つのシークエンシングセンターのうちの 1 つです。HGSC プロジェクトの 1 つは、ゲノム疫学プロジェクト内の心臓および加齢研究コホート (Cohorts for Heart and Aging Research in Genomic Epidemiology (CHARGE)) に関わっています。このプロジェクトは、加齢と心臓病に関与する遺伝子の同定に取り組んでいる世界中の 5 つの研究機関からの 200 名を超える科学者によるコンソーシアムです。進行中のコンソーシアムである CHARGE プロジェクトでは、国立心肺血液研究所 (NHLBI) による大規模なコホート研究と、ヨーロッパで行われている同様の研究から取得された遺伝子サンプルと表現型データの分析が行われています。CHARGE とベイラー医科大学は共同で、多数の治験参加者の配列を決定してベイラーのマーキュリー分析パイプラインを通じて処理することに取り組んでおり、脳卒中や心臓病の予防および治療における遺伝的変異の役割について、科学者がより良く理解できるようサポートしています。ベイラーには、毎月 24 テラベースのコンテンツ、つまり約 1 PB の未加工データを配信するシークエンシング解読装置が 20 台あります。研究の治験参加者は、現在 14,000 人を超えています。この大きさのデータリソースには、革新的なデータソリューションが必要です。

DNAnexus では、DNA シークエンシングセンターと研究者を対象として、データ管理、次世代のシークエンシングデータ解析、および安全なコラボレーションを提供しています。DNAnexus のサービスは、お客様特有の学術的または商業的なニーズを満たすために、単一の統合システムを通じて提供されます。統合システムにはオンデマンドのインフラストラクチャが含まれており、コンピューティングとストレージ、生物情報科学とクラウドコンピューティングのサポート、安全かつ規制に準拠したコラボレーション、およびその他の数多くの機能を実現しています。DNAnexus PaaS ソリューションはアマゾン ウェブ サービス (AWS) に構築されており、学術機関、政府研究所、バイオ製薬会社、診断テストプロバイダーによって使用されています。

過去 1 世紀にわたり、数多くの研究によって一生を通じた患者の観察が行われ、特定の状態や病気がどのように進行するかが究明されてきました。DNA シークエンシングツールの開発と、大量のデータを管理する機能により、これらの研究の成果は現在 CHARGE プロジェクトの一部として分析されています。世界中の CHARGE の科学者は、データを使用して病気の原因と予防策を研究しています。

しかし、DNA シーケンサーがより効率的になり、ゲノムテストがさらに普及すると、分析されるデータの量はきわめて多くなります。CHARGE プロジェクトで使用されるデータが 430 TB を超えると、関心のある科学者へのデータ配布は難しくなります。昔は、データを含むハードドライブは暗号化され、CHARGE プロジェクトに関わる 200 名を超える科学者に郵便で発送されていました。これにより、情報の共有の遅れとデータセキュリティに関する問題が生じていました。ベイラーのリードプログラマーサイエンティストである Narayanan Veeraraghavan 氏は、「非常に多くの人にハードドライブを発送する必要があることは、ロジスティックの悪夢です」と述べています。「データはすべての時点で暗号化されている必要があります。非常に多くの科学者がハードドライブを扱うと、すべての人がセキュリティガイドラインに準拠できるわけではないため、多くのエラーが発生するでしょう」

このインフラストラクチャに関する課題のみでも高いコストがかかります。「インフラストラクチャを設定して、データストレージとコンピューティングの観点から特定のニーズを満たすには、2 か月かかります」と Veeraraghavan 氏は述べています。「その数か月間でテクノロジーとプロトコルが変わる可能性があり、シークエンシングプラットフォームへの更新は、シーケンサーが 2 倍出力できることを意味します。そのため、ハードウェアのニーズの計画と見積もりを行っている間に、要求は 2 倍になっています」ベイラーはまた、複数のオペレーティングシステムでツールを共有できる科学者も求めていました。

ローカルでの面倒なコンピューティング作業により、「プロジェクト全体がこれだけに時間を費やすことになります」と Veeraraghavan 氏は述べています。「規模に応じて運用し、莫大な量のデータを保存できる必要があります。私たちには別のソリューションが必要でした。そうしなければ、CHARGE の研究は著しく高価なものになったでしょう。必要なコンピューティングリソースを自分たちで確保することは困難、または不可能でした」

ベイラー医科大学では、物理インフラストラクチャのセットアップに時間をかけることなく、安全で効果的な世界レベルのコラボレーションを実現するために、費用対効果が高く、メンテナンスが簡単なソリューションを必要としていました。「インフラストアクチャのセットアップに何か月もかけることはできませんでした。また、データを効率的かつ安全、またインタラクティブに共有できる必要がありました」と、Veeraraghavan 氏は述べています。

また、そのソリューションには、臨床基準および HIPAA 要件を満たすことのできる柔軟性も必要でした。「要件すべてを明確にすると、DNAnexus と AWS クラウドに当然のように引き寄せられました」。

ベイラーは、API ベースの PaaS を提供する DNAnexus とパートナーを組むことに決めました。これにより、臨床企業や研究事業では、分析パイプラインとデータを効率的かつ安全に AWS クラウドに移動できるようになりました。DNAnexus によって、お客様は著作権を有するアルゴリズムをクラウドに移植できるようになります。同時に、業界に認知されたツールおよびリファレンスリソースによってカスタマイズされたワークフローを作成できるようになります。DNAnexus の PaaS は、すべてが AWS で構築されています。これにより DNAnexus は、20,000 を超える同時コンピューティングコア、1 PB のストレージ、何百万もの分析コア時間、および AWS クラウド内で統合された何十万ものコンピューティングジョブに対してスケールできるようになりました。また、AWS によって事業提携契約 (BAA) が DNAnexus と締結されるため、DNAnexus は、米国および全世界の医療規則に準拠したクラス最高のセキュリティとコンプライアンスを提供できます。AWS を使用して、お客様は HIPAA 準拠のワークロードを構築および実行できます。

CHARGE プロジェクトはベイラーの分析パイプライン、マーキュリーを使用してデータを処理します。マーキュリーパイプラインは、シーケンサーの未加工のファイルを取り込み、そのデータを最終的に配信可能な注釈付きバリアントコールファイルに変換します。これにより、臨床的に意義のある突然変異を特定できます。科学者は終了時点で 3 次分析を実施して、追加の調査課題に取り組みます。研究者の小人数グループが各遺伝子マーカーの生態を詳しく調査するツールを開発しており、これによって予測遺伝子と保護遺伝子の両方に関する新しい調査結果を用いてデータを再処理できるようになります。研究者はさまざまなツールを比較し、DNAnexus プラットフォームを使用することで地理的境界を越えてこれらを共有できます。

DNAnexus は Amazon Simple Storage Service (Amazon S3) と Amazon Glacier を使用して、1 PB ものゲノムデータを保存しています。DNAnexus は、DNA データをシークエンシング機器からクラウドに直接アップロードするためのオプションを科学者に提供するコマンドラインツールを作成しました。その結果、コストのかかるオンプレミスストレージインフラストラクチャのニーズが排除されました。Amazon Elastic Compute Cloud (Amazon EC2) では、DNA 分析自体がホストされます。DNAnexus は、Amazon EC2 インスタンスで動作するカスタムのキューシステムを開発しました。このシステムは、データ処理における中断を扱えるよう設計されています。

コストを最適化するために、DNAnexus は Amazon EC2 のリザーブドインスタンスを使用して、ウェブサイト、顧客のフロントエンドポータル、および DNA 可視化ツールなどのインタラクティブサービスと、バックエンドクラウドおよびジョブ管理サービスを実現しています。

DNAnexus.arch

図 1. AWS クラウドにおけるベイラーの HGSC アーキテクチャ

AWS と DNAnexus は、AWS がまとめたベストプラクティスを使用して、マーキュリーパイプラインへのアクセスを制御することで CHARGE データを保護しています。「当社は、人々の機密医療情報を処理しています」と Veeraraghavan 氏は述べています。「1 つのパイプラインを使用して、そのパイプラインへのアクセスを制御することで、リスクを最小限に抑える方法で環境を構成できます」AWS の厳格なセキュリティプロトコルにより、DNAnexus は、クラス最高のセキュリティ、コンプライアンス、HIPAA、CLIA、およびその他の複雑な規制対策に従った監査標準をクライアントに提供できます。DNAnexus の最高クラウド責任者である Omar Serang 氏は、「安全かつコンプライアンスに準拠した環境のコンピューティングインフラストラクチャを必要とする、非常に大規模な臨床研究を実施できます。この環境は、以前は実現することができなかった規模のものです」と述べています。

AWS および DNAnexus への移行後、ベイラーは最初の分析を 10 日以内で完了させました。これはローカルのインフラストラクチャより 5 倍の速さであったため、調査結果を迅速に共有できました。分析には 21,000 のコアが使用されました。Amazon EC2 XL インスタンス 1 つにつき 16 の仮想コアがあります。「AWS クラウドなら、数百テラバイトのデータでも迅速なコラボレーションが可能です」と Veeraraghavan 氏は述べています。「そのようなデータを処理する人たちのために中央のエリアを用意できたため、必要な帯域幅と、莫大なコンピューティングリソースを購入するためのニーズが削減されました」

これは、ベイラーが科学者のコラボレーションをサポートするためにハードドライブを出荷していた時代とは大違いです。AWS と DNAnexus を使用することにより、ベイラーと CHARGE は、さまざまなシステムを使用して、分析ツールを共有するための共通の環境を科学者に提供できました。「すべての科学者は、Mac、Linux、または Windows のどれを使用しているかに関係なく、DNAnexus 内のすべての CHARGE データに対してどんなツールでも実行できます」と Veeraraghavan 氏は述べています。CHARGE のリード DNAnexus サイエンティスト Andrew Carroll 氏はこのように加えます。「AWS クラウドを使用するとツールの比較が可能になるため、どのツールがプロジェクトに適しているか、適していないかがわかります。AWS クラウドの DNAnexus により、研究者は学んだことを科学者のコミュニティと共有できるようになります」

AWS クラウドのスケーラビリティにより、CHARGE の科学者は、調査中の状況に対する予測力を向上できます。また、病気が進行しないようにするための「保護」遺伝子の特定も可能で、迅速かつ安全に実施できます。「これが、AWS クラウドを選択する理由の定義です」と Carroll 氏は述べています。「CHARGE は、ジョブを完了するために、できるだけ短い期間内に非常に高い最大負荷で実行する必要があります。AWS クラウドを使用すると、AWS テクノロジーを基盤にして独自の PaaS を構築するための柔軟性が DNAnexus に提供されます。実質的に無制限のコンピューティングリソースとデータストレージリソースで DNAnexus システムをスケールできます」

何よりも、DNAnexus と AWS を使用することで、CHARGE の科学者は、インフラストラクチャではなく科学に集中できるようになります。「目前に迫る大規模なデータ流入に向けてインフラストラクチャをアップグレードするには、大きな投資が必要となります。スペースについては言うまでもありません」と Veeraraghavan 氏は述べています。「このような種類のコンピューティングは、一度きりのことではありません。急激に増加し続けます。科学の展望を見つけるための能力には、あらゆる種類の限界があります。しかし現在は、AWS と DNAnexus のおかげで、私たちはインフラストラクチャではなく科学に集中できます」

クラウドにおけるゲノミクスに関する詳細については、AWS のゲノミクス詳細ページをご覧ください。