ニューヨーク州ニューヨーク市にあるマウントサイナイアイカーン医科大学は、医学および科学教育、生物医学研究、患者治療の分野の先駆者として国際的に評価されています。同大学は、専門性の高い患者治療を提供し、社会に貢献しながら、生物医学の学識を深めることに尽力しています。マウントサイナイアイカーン医科大学は、マウントサイナイ病院と連携し、世界で最も多様で複雑な患者集団に奉仕しています。

マウントサイナイアイカーン医科大学の研究者と医師は、乳がんと卵巣がんの遺伝子面での謎の解明に挑戦しています。マウントサイナイのJohn A. Martignetti 医師と Peter R. Dottino 医師は、Station X の協力者と共に、国際がんゲノムコンソーシアム (TCGA) が生成した、乳房および卵巣腫瘍と生殖細胞系列の 2,000 を超える DNA 配列を掘り起こしています。TCGA は、大規模なゲノムシークエンシング解析などのゲノム分析テクノロジーの応用を通してがんの分子基盤の理解を進めることを目的とした、総合的かつ組織的な取り組みです。TCGA は、米国立がん研究所 (NCI) と米国立ヒトゲノム研究所 (NHGRI)、米国立衛生研究所の 27 の機関およびセンターのうち 2 つ、米国保健社会福祉省の共同による取り組みです。

そこでは科学者が 100 TB を超えるデータを分析し、新しい仮説を立て、データを再分析しているため、相当の計算能力が必要になることが大きな問題でした。いずれかのがんが発生する遺伝的リスクを持った女性のうち、BRCA1 または 2 の生殖細胞変異が約半数を占めます。研究者は、BRCA1/2 に変異がない女性が持つ、未発見の遺伝的連鎖を見つけることを目指しています。

Station X との協力により、Martignetti 医師と Dottino 医師は、この業務のための堅牢で安全な分析プラットフォームを提供できるソリューションプロバイダーの助けを仰ぐことができました。Station X では、初期研究と臨床でヒトゲノムデータを利用する科学者および臨床家向けのゲノミクスソフトウェアプラットフォームである GenePool™ を開発しています。

テラバイト単位のゲノムデータから得られるマイニング情報(および情報が安全であることの確認)には、ビッグデータストレージと厳密なアクセスコントロールによる柔軟で高パフォーマンスのプラットフォームが必要です。クラウドコンピューティングが役立つことは明らかでした。

アマゾン ウェブ サービス (AWS) は、Station X のゲノミクスプラットフォームである GenePool の基盤です。GenePool では、数万のゲノムを数分で分析できるように動的にスケールすることができます。「AWS はソフトウェア環境の構築に本質的に適しています」と Station X の製品担当副社長である Sandeep Sanga 氏は述べています。「当社では、AWS 上に GenePool に作成し、研究者が大量のデータを管理、分析できる場所を提供しました。当社が AWS を選択した理由は、AWS が提供している多数のサービスに非常に競争力があるためです」。AWS を使用することにより、Station X では GenePool プラットフォームの設計に集中できています。これは、研究者が迅速かつ安全に配列データを理解するのに役立っています。

マウントサイナイの研究者にとって、患者データの保護がきわめて重要です。Martignetti 医師はこう言っています。「患者の機密性を守ることが第一です。特に、生成されている膨大なデータに対してです。これはささいな問題ではありません。しかし、AWS と GenePool を使うことで、求められている機密性の基準を満たすことができました」AWS を使用することで、Station X は事前に承認された研究者に、アクセス制御されている The Cancer Genome Atlas のデータへのアクセス権を提供することができました。これにより、承認されたユーザーは「乳がんまたは卵巣がんのいずれかに罹患している患者の体細胞変異と生殖細胞変異を計算して理解することができるようになった」と Sanga 氏は話しています。

マウントサイナイでは、ユーザー認証に AWS Identity and Access Management (IAM) を使用しているため、AWS Access Control Lists (ACL) でアカウントアクセスの制御と管理を行い、安全で一元化されたユーザー管理と認証情報管理を行えるようになりました。Amazon Simple Notification Service (Amazon SNS) と Amazon Simple Email Service (Amazon SES) は、通知とアラートが必要な管理者とエンドユーザー向けに、アウトバウンドメッセージングサービスを提供しています。

Elastic Load Balancing のおかげで、Station X には、Amazon VPC 環境に安全で耐障害性に優れたスケーラブルなウェブおよび API アーキテクチャがあり、データストアと中間層をインターネットから見えないように分離できているという確信が持てるようになりました。「データストアと中間層をインターネットから見えないように分離することで、すべてのサーバーをプライベートとして維持でき、セキュリティの規模を大幅に削減できました」と Sanga 氏は語ります。

マウントサイナイの研究者は、AWS クラウドを使用して、Amazon Glacier の追加ストレージと Amazon Simple Storage Service (Amazon S3) に保存されている山ほどのゲノムデータから、意味ある情報を引き出しています。

Station X では、重要で価値の高いデータには Amazon Elastic Block Store (Amazon EBS) ストレージを使用することで、リアルタイムゲノム分析に使用する膨大な量の計算前データに対応できる、柔軟で高性能なストレージシステムが可能になりました。

また、Amazon Elastic Compute Cloud (Amazon EC2) で、GenePool に内蔵されている統計的モデル、ビジュアルフィルタリング機能、ゲノムおよび臨床注釈データベースとのリッチな統合、RESTful ウェブサービスによるサポートの統合を実現しています。「伸縮自在という Amazon EC2 の性質のおかげで、コスト効率がよく、動的にスケーラブルな方法で大量データの処理と分析を行えるようになりました」と Sanga 氏は言います。マウントサイナイは専用の Amazon S3 ストレージを使用して、患者から提供されたゲノムデータを安全に保存し、GenePool での分析用にステージングしています。図 1 はマウントサイナイのアーキテクチャを表します。

mount-sinai-arch-diag

図 1. マウントサイナイの研究アーキテクチャ

システムが効果的に動作するように、GenePool では Amazon CloudWatch をモニタリングに使用しています。Amazon ElastiCache は、大規模データセットの分析結果を迅速に返すことのできる、一元化されたキャッシュメカニズムを提供します。「AWS で構築したゲノミクスソフトウェアプラットフォームのおかげで、科学者は臨床の質問に数分や数秒で回答できるようになりました」と Sanga 氏は語ります。

AWS と GenePool を使用することで、Martignetti 医師と Dottino 医師は、The Cancer Genome Atlas プロジェクトから数千件の患者レコードをすばやく取り出し、自身の科学的仮説に合う大量の新しい候補遺伝子の中から遺伝子異常を特定できるようになりました。これらの候補遺伝子と他のゲノムデータを相互参照することで、Martignetti 医師と Dottino 医師は、遺伝性の乳がんと卵巣がんの新しい潜在的マーカーに対する候補遺伝子リストを充実させることができました。

Martignetti 医師は次のように述べています。「AWS クラウドを利用する前は、外部と協力してこのように大規模なデータセットを分析する方法がありませんでした。未発見の連鎖を見つけるためには、データを意味ある方法で取捨選択して、分析し、再びフィルタリングをかけるという作業が不可欠なのですが、そうすることはできなかったでしょう」

AWS で GenePool を構築することで、Station X は翻訳および臨床ゲノミクスの顧客用のデータセットを保存できるようになったと Sanga 氏は語っています。さらに Sanga 氏はこのように付け加えました。「AWS を使うことで、高速なデータアクセス、大容量ストレージ、高性能なコンピューティング能力というすばらしい競争力が手に入りました。このような研究プロジェクトは、私たちではできません。分析するデータはいつも大量にあります。研究者が科学的結論を導き出せるように支援するときでさえ、学ぶべきことはいつもあります。AWS を使用することで、このような課題にうまく対応できるようになっています」

この分析を AWS クラウドで安全に実行する能力がなければ、マウントサイナイの医師たちは研究を進められないでしょう。「AWS を使用することで、ソースファイルをコスト効率のよい方法で安全に保存できるようになり、優れた耐久性とアクセシビリティを実現できました。これがなければ研究はできないでしょう」と Martignetti 医師は言います。「AWS と GenePool を使用することで、なぜ一部の女性にはこのようながんが発生するリスクが高いのかという謎を解き明かす、未発見の連鎖を実証する変異を発見したいと考えています」

クラウドでのゲノミクスについて詳しくは、AWS ゲノミクスの詳細ページをご覧ください。