ニューヨーク大学 (NYU) Center for Health Informatics and Bioinformaticsハイパフォーマンスコンピューティング施設は 2009 年に設立され、その最先端のコンピューティング能力はニューヨーク大学ランゴンメディカルセンターの研究に利用されています。この施設で、医療情報科学および生命情報科学の研究者は、コンピューティング能力、データストレージ、スーパーコンピューティングリソースを利用し、世界中の共同研究者とのデータ共有を通して、発見とイノベーションを加速させています。

ハイパフォーマンスコンピューティング施設の技術部長である Stratos Efstathiadis 博士は、この施設の主な活動を説明し、「当施設では、次世代のシーケンサー、顕微鏡、スライドスキャナー、質量分析計といった研究機器から膨大な量のデータをキャプチャしています。このデータの保存、選別、サポート、分析が必要ですし、シミュレーションの実行やモデルの生成に科学者が使用できるリソースを提供する必要もあります」と言います。

通常、こうした分析とシミュレーションの仕事には数日~数週間かかるため、メディカルセンターとして最大級の規模を誇るこの施設でも、研究者がデータ分析の時間を短縮できるよう、コンピューティングリソースの追加が必要になることがあります。

データの分析時間より問題となるのが、データの転送時間です。Efstathiadis 博士は、「データの転送は大きなボトルネックです。データセットが膨大なので、データの生成より移動の方が時間がかかるということがよくあります。世界中に共同研究者がいるため、データを移動できないとそうした研究者がデータを使用できません」と言います。

AWS クラウドと Globus Online (AWS を使用して運用されている無料のファイル転送サービス) を組み合わせて使用することで、大量のデータセットを Amazon EC2 に信頼性の高い方法で転送できるようになりました。このソリューションでは、1 秒あたり最大 50 メガバイトの速度でファイルを並列移動できます。Efstathiadis 博士は、「これは当施設内での転送速度とほぼ同じで、まったく引けを取りません」と言います。

Efstathiadis 博士が AWS を使用することに決めた理由は、Amazon EC2 インスタンスの幅広い選択肢のためです。また、同センターの研究者たちが既にサービスを使い慣れていたためでもあります。Efstathiadis 博士はさらに、「また、Globus Online を使用すればデータを Amazon EC2 に簡単に転送できるため、大量のデータセットをクラウド環境に移動し、クラウド環境に研究者がアクセスして使用できるようにする方法も魅力的です」と言います。Efstathiadis 博士は、SCP といった他のツールは「時間がかかり過ぎることや、施設のファイアウォールでブロックされることがあり、使用できるツールの種類が限られます。Globus Online なら、使いやすさを犠牲にせずにスループットの向上を実現できます」とも言います。

また、この施設ではデータストレージに Amazon S3 も使用しています。Efstathiadis 博士は、「Globus Online では、サーバーイメージをデプロイし、Globus Online のエンドポイントをインストールして、そこにデータを移動すれば、ローカルストレージから Amazon S3 ストレージに簡単にデータを移動できます」と説明します。

HPC の施設では、クラウドを使用することで、NYU の研究者に提供できるサービスを拡大できました。研究者は、必要なときに必要なリソースにアクセスできるようになりました。また、クラウドは共同研究にも役立っています。Amazon S3 を使用することで、研究結果やデータセットを世界中の研究者と簡単に共有できます。

データの共有は重要な要素です。Efstathiadis 博士は、「他の施設にも多くの共同研究者がおり、データを Amazon S3 にアップロードすることで、他の場所の研究者もデータを利用できるようになります。つまり、このソリューションによって、NYU の研究者は自分たちの分析パイプラインを強化すると同時に、他の施設の研究者が分析パイプラインを強化するようサポートできるようにもなりました」と言います。

NYU の Center for Health Informatics and Bioinformatics の HPC 施設では、研究を実施しやすくし、その費用を削減する方法を常に探しています。この施設では、クラウドを使用することにより、現地の施設が単独で提供できるものの枠を超えたスケーラブルなコンピューティングリソースという目標にさらに近づくことができました。

クラウド内でのゲノミクスについては、AWS ゲノミクスの詳細ページをご覧ください。

ハイパフォーマンスコンピューティングのニーズに AWS がどのように役立つかについては、HPC の詳細ページをご覧ください。