lncRNA の解析には膨大な計算処理と統合が必要です。AWS を使用することで、1,000 件以上のノードの計算を短時間で行えるようになり、ゲノム配列の解析を数週間から数日に短縮できました。 
Mitch Guttman 博士 生化学および生物工学部、准教授

カリフォルニア工科大学のグットマン研究所 (Guttman Lab for lncRNA Biology) は、注目を集める科学者である Mitch Guttman 博士をリーダーとする研究所です。Guttman 博士が率いるこの研究チームでは、lncRNA (ラージノンコーディング RNA) と呼ばれる新しいクラスの遺伝子を研究しています。Guttman 博士とそのチームは、ゲノムのアプローチを生化学、分子生物学、細胞生物学、計算生物学と併せて使用し、lncRNA が細胞内でタンパク質と DNA の分子を組織して、精密な遺伝子発現プログラムを制御する様子を研究しています。

Guttman 博士は、2013 年にカリフォルニア工科大学に着任したとき、研究チームに伸縮自在で柔軟なハイパフォーマンスコンピューティング (HPC) クラスターが必要だと考えていました。Guttman 博士は、「研究所のクラスターについて検討したところ、コンピューティングの需要の変動に対応する必要があることがわかりました。コンピューティングノードが 1,000 個必要なときもあれば、10 個しか必要ではないこともあります。必要な数は、データの可用性と研究プロジェクトの段階によって変わります。また、複数のプロジェクトを同時に進めていれば、必要な数はさらに増える可能性があります」と言います。

しかし、この研究所には、ニーズに対応するオンプレミスクラスターを所内に構築できない理由がありました。カリフォルニア工科大学の情報管理システムおよびサービスの主任管理者である John Lilley 氏は、「カリフォルニア州は全米で最も地価と電気代が高いため、所内にクラスターを作成するにはコストが問題になりました。また、クラスターの管理と維持に時間をかけたくありませんでした」と言います。

さらに、Guttman 博士とそのチームには、クラスターにアクセスするための認証情報を簡単に管理できる仕組みも必要でした。「いずれかのマシンに認証情報が登録されていないことに気付いても困らないように、中央の 1 か所からクラスターのユーザーアカウントの有効化と無効化を行えるようにする必要がありました」と Lilley 氏は言います。

カリフォルニア工科大学では、ウェブプレゼンス全体を既にアマゾン ウェブ サービス (AWS) のクラウドプラットフォームに移行しており、グットマン研究所でも AWS を使用して HPC クラスターを運用しています。「コンピューティングリソースにクラウドを使用する方法を探していた当研究所にとって、AWS は最適な選択肢でした。AWS の伸縮性、柔軟性、コスト削減はまさに当研究所が探していたものだったためです」と Lilley 氏は言います。

グットマン研究所が使用する HPC クラスターのコンピュータは Amazon Virtual Private Cloud (Amazon VPC) に接続されているため、この研究所では、AWS クラウドの論理的に分離されたセクションをプロビジョニングし、定義された仮想ネットワークで AWS リソースを起動することができます。ドライラボとウェットラボの研究者たちは、取得したゲノム配列データを Amazon VPC 内の GlusterFS ファイルシステムに保存し、AWS ベースの共有 Linux ワークステーションを使用してデータにアクセスします。アクセスの認証は、AWS Directory Service の Active Directory 対応ディレクトリである Simple AD で行っています。

また、Linux 以外のユーザーには Amazon WorkSpaces で管理されるデスクトップコンピューティングサービスを使用しています。Lilley 氏は、「Windows ユーザーにも、Linux ユーザーと同じレベルのデータアクセス権を付与し、ドライラボの PC から Amazon WorkSpaces に接続できるようにする必要がありました。Simple AD を使用することにより、これでアクセス権を簡単に管理できるようになりました」と言います。この研究所では、GlusterFS ノードに Amazon Elastic Compute Cloud (Amazon EC2) インスタンスを使用し、AWS における HPC クラスターのデプロイと保守には CfnCluster フレームワークを使用しています。研究チームでは、このクラスターを使用して、実験データを解析するための計算ツールと統計的手法を開発しています。

グットマン研究所では、AWS を使うことにより、コンピューティングの需要の変動を伸縮自在に管理できるようになりました。「コンピューティング使用量の定期的な変動を管理するために物理的なクラスターを構築する必要はありませんでした。AWS では、自動的にスケールされるためです」と Lilley 氏は言います。Guttman 博士はさらに、「前もってプロジェクトに優先順位を付ける手間も必要なくなりました。数年ごとにハードウェアを更新しなくても十分な処理能力を維持できるためです。新しい研究手法の開発やテストも積極的に行えます。AWS はまさにこのラボの成功要因です」と言います。

また、この研究所には、必要に応じてコンピューティングリソースを簡単に追加するために必要な俊敏性もあります。Lilley 氏は、「最近、GlusterFS システムを 5 テラバイトから 24 テラバイトに拡張する必要がありましたが、新しいハードウェアを購入せずに拡張できました。必要だったのは Amazon EC2 ノードを追加して、クラウドストレージを増やすることのみで、所要時間はわずか 1 時間でした。以前なら数週間かかっていた作業です。ハードウェアの購入価格の話し合いをしてから、調達、設置、テストを行わなければならなかったためです」と言います。

また、同研究所の研究者は、AWS クラウドを使用することによって、lncRNA データの解析に必要な時間を短縮できました。Guttman 博士は、「lncRNA の解析には膨大な計算処理と統合が必要です。AWS を使用することで、1,000 件以上のノードの計算を短時間で行えるようになり、ゲノム配列の解析を数週間から数日に短縮できました。以前の限られたキャパシティーでは、これほど短時間で解析できませんでした」と言います。

この研究所では、Amazon EC2 スポットインスタンスを使用して予備の Amazon EC2 のコンピューティング性能に入札することで、コストを削減することもできました。「AWS の伸縮自在なコンピューティング能力と EC2 スポットインスタンスのコスト効率を考えれば、所内でクラスターを構築した場合と比べて、このクラスターははるかに安上がりです」と Guttman 博士は言います。

グットマン研究所では、Amazon WorkSpaces と Simple AD を使用することで、HPC クラスターへのアクセス権も簡単に管理できるようになりました。Lilley 氏は、「初めてクラスターを使い始めたころは、Linux デスクトップと管理ホストや CfnCluster の間で認証情報を同期することが一仕事でした。Simple AD をクラスターと統合したことで、中央からユーザーアカウントの有効化と無効化を行えるようになったため、時間を大幅に節約できました。Simple AD を使用することにより、環境全体で整合性を保てるようになりました」と言います。

現在、カリフォルニア工科大学では、AWS を運用する研究所や部門を増やすことを計画しています。Lilley 氏は、「AWS で作成したものを学内の他のゲノム研究者も利用しています。これはカリフォルニア工科大学での HPC を促進するテンプレートになると考えています」言います。

クラウド内でのゲノミクスの詳細については、AWS ゲノミクスの詳細ページをご覧ください。

HPC クラスターを管理するうえで AWS がどのように役立つかについては、AWS ハイパフォーマンスコンピューティングの詳細ページをご覧ください。