構造生物学研究の実験にかかわるデータ解析サービスの提供を
AWS の HPC 技術をベースに実現
2021
高エネルギー加速器研究機構は、放射光ビームラインやクライオ電子顕微鏡から取得した膨大なデータの解析を、大学や民間企業など外部の研究者にサービスとして提供する HPC(High Performance Computing)環境の構築にあたってアマゾン ウェブ サービス(AWS)を採用。測定装置の稼働スケジュールに合わせたインフラ利用のオン/オフにより TCO を抑制するとともに、AWS が提供する多彩なサービスを活用してさらなる拡張性を担保しています。
AWS への移行後、インフラに関するトラブルは一度も発生していません。保守運用まで自分一人で行っていたときにはトラブル対応に不安がありましたが、インフラから業務システムまで精通した APN パートナーにお任せできることのメリットを実感しています
山田 悠介 氏
大学共同利用機関法人
高エネルギー加速器研究機構
物質構造科学研究所
構造生物学研究センター/放射光科学第二研究系
助教
放射光ビームラインやクライオ電子顕微鏡から出力される大容量データの解析環境をサービス化
自然界の法則や物質の基本構造の研究を行う大学共同利用機関法人高エネルギー加速器研究機構(KEK)。電子や陽子などの粒子を光の速度近くまで加速して高エネルギー状態を作り出す高エネルギー加速器を使った実験的、理論的研究を自ら進める一方、国内外の大学や民間企業の研究者に加速器の共同利用の場を提供しています。
KEK の一研究所として、加速器から発生する放射光や陽電子、陽子加速器によって作り出される中性子やミュオンなどの量子ビームを利用し、原子レベルから高分子、生体分子レベル、さらには個体レベルに至るまで幅広いスケールの物質構造と機能の総合的研究を担っているのが物質構造科学研究所です。「近年、この研究分野を加速させるうえで大きな貢献を果たしているのがクライオ電子顕微鏡で、タンパク質などの壊れやすい生体高分子、特に分子量の大きなタンパク質複合体の観察や構造解析に新たな手法を提供しています」と同研究所の構造生物学研究センター/放射光科学第二研究系 助教の山田悠介氏は説明します。
KEK では 2018 年 3 月にクライオ電子顕微鏡を導入。以来、大学や民間企業の研究者がタンパク質の構造解析の領域で同顕微鏡を共同利用できる環境整備に取り組んできました。そこで検討したのが、膨大な画像データ解析に必要な計算リソースをいかにして提供するかです。「顕微鏡などの測定装置から出力されるデータを高速に処理し、解析を行うためのコンピューティング環境を個々の研究者や研究機関が整備することは、予算と運用の両面で非常に高いハードルといえます。そこで、クラウド上に計算リソースや解析のためのアプリケーション群を KEK 側で用意して、外部の研究者にサービスとして利用してもらおうと考えました」(山田氏)
HPC を支える潤沢なサービス群で将来的な要請にも柔軟に対応
KEK は、2018 年 11 月からクラウド環境の検討を本格化し、AWS を採用しました。
「AWS はクラウドインフラの世界的なリーディングカンパニーであり、GPU など高性能な計算インフラのバリエーションが豊富に用意されているほか、クラスタリングなど解析プロセスに必須の HPC 環境に必要なサービス群も利用できます。将来にわたるシステムインフラの進化にも速やかに追随していけると考えました」と山田氏は説明します。
放射光ビームラインやクライオ電子顕微鏡などの測定装置から出力されたデータは、KEK のオンプレミスのシステムからクラウド上にアップロードして研究者に供するというかたちが想定されており、クラウド側ではデータを利用者ごとに厳密に分離して格納/運用する必要があります。AWS ならこの要件に応える万全のセキュリティ対策が施されていることもポイントとなりました。
SINET との高い親和性が担保されオンプレミスとの接続もスムーズ
AWS を採用した KEK はさらにインフラの整備や解析アプリケーションの実装を進め、2019 年 4 月に一部の解析についてサービスを開始。「はじめにクラウドを用いた解析の自動化や最適化についての PoC(Proof of Concept)を実施しました。現在も厳密にはサービス自体は試行運用という段階で、システムアーキテクチャや処理フローの改良を続けています」と語るのは、AWS の導入パートナーを務める株式会社 Fusic の新川拓也氏です。
目指す利用イメージとしては、クラウド上にさまざまなデータ解析を行うためのメニューを用意し、各研究者が適宜選択して、クラウド上にアップロードされた自らのデータを処理できるようにしていきます。バックグラウンドでは必要な計算リソースが適宜割り当てられ、さまざまなアプリケーションが連動して自動実行されますが、研究者の側からはそうしたプロセスを意識する必要がない環境を目指しています。
「インフラ周りの整備やコントロールについては、必要な API を組み込んだプログラムの実装を進めていますが、そこでは AWS のマネージド型サービスを積極的に活用して、要件とのギャップ部分のみを埋めていくというかたちで、非常にスムーズに進捗しています」と新川氏は語ります。また、KEK のオンプレミスとクラウド環境の間は学術情報ネットワークである SINET*で接続されていますが、AWS は SINET との親和性が高い点もシステム構築の円滑化に大きく貢献しています。
サービス上での研究成果を共有可能な情報基盤としての役割も将来的に期待
環境は適宜改善を進めているものの、さまざまなシーンで導入効果も現れてきています。例えば、リソースの割り当てや解放が柔軟に行えるクラウドならではのメリットです。現在、KEK では放射光施設について 1 年を 3 期に分け、各期で 2 ヶ月ずつ動かしています。放射光ビームラインから出力されるデータの解析処理が必要なのは 1 年のうち 6 ヶ月程度で、その間だけ AWS のサービスをオンにして利用できるため、残りの期間は料金も維持作業も発生せず、コストを抑制できています。
また、研究者が実際に KEK を訪れないとできなかった計算がインターネット経由で利用可能になりました。「KEK では構造解析の講習会などを随時開催しています。従来は会場に PC を人数分用意してセットアップしておく必要がありました。今では VDI(Virtual Desktop Infrastructure)を利用し、所定のテンプレートで人数分の仮想デスクトップを用意しておけば、受講者はそこにアクセスするだけで、遠隔地からも講習に参加できます」(山田氏)
このように KEK では構造生物学実験におけるデータ解析サービス構想の実現性について、十分に検証できていると捉えています。一方、本格運用に向けては改良点も見えてきています。例えば、現在ストレージ環境として利用している Amazon S3 では大容量データの解析にさらに性能が必要と考えられており、Amazon EC2 のインスタンスのチューニングに加え、AWS ParallelCluster を用いたクラスタリングによる並列計算の適用、あるいは Amazon FSx for Lustre の活用なども俎上に載せて検討を続けています。
KEK では課題を一つひとつ解消しながら、一日も早い本格的利用を目指しています。「まずは個々の研究者によるデータ解析の支援を目的に掲げていますが、将来的には国内外の研究者の成果を共有していける情報プラットフォームとしての役割も担っていきたいと考えています」と山田氏が語るように、学術データの幅広い活用に向け、AWS に対する KEK の期待はますます高まっています。
* SINET(学術情報ネットワーク)は、日本全国の大学、研究機関等の学術情報基盤として、国立情報学研究所(NII)が構築、運用している情報通信ネットワーク。大学、研究機関等に対して先進的なネットワークを提供するとともに、多くの海外研究ネットワークと相互接続している。
山田 悠介 氏
カスタマープロフィール:大学共同利用機関法人 高エネルギー加速器研究機構
- 設立:2004 年 4 月
- 資本金:504 億 3,500 万円
- 職員数:671 名
- 事業内容:高エネルギー加速器を使った各種研究活動、および大学など外部研究機関に対する加速器の共同利用環境の提供
AWS 導入後の効果と今後の展開
- AWS のマネージド型サービスを活用してインフラの整備や制御を省力化
- 電子顕微鏡の稼働スケジュールに合わせたクラウド利用のオン/オフで TCO を抑制
- 仮想デスクトップ環境の活用による遠隔アクセスの実現
AWS アドバンスドコンサルティングパートナー
株式会社 Fusic
Fusic では 2009 年から AWS を活用。その中で培ってきた高度な知識と豊富な経験に基づき、顧客における AWS の新規導入や既存システムの AWS への移行を支援。それに付随するコスト最適化に向けたコンサルティングやクラウドネイティブな Web システム開発といったサービスも提供している。
ご利用中の主なサービス
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) は、安全でサイズ変更可能なコンピューティング性能をクラウド内で提供するウェブサービスです。ウェブスケールのクラウドコンピューティングを開発者が簡単に利用できるよう設計されています。
Amazon S3
Amazon Simple Storage Service (Amazon S3) は、業界をリードするスケーラビリティ、データ可用性、セキュリティ、およびパフォーマンスを提供するオブジェクトストレージサービスです。
Amazon Virtual Private Cloud
Amazon Virtual Private Cloud (Amazon VPC) では、AWS クラウドの論理的に分離されたセクションをプロビジョニングし、お客様が定義した仮想ネットワーク内の AWS リソースを起動することができます。
AWS Directory Service
AWS Managed Microsoft Active Directory (AD) とも呼ばれる AWS Directory Service for Microsoft Active Directory は、ディレクトリ対応型ワークロードと AWS リソースがAWS 内のマネージド型 Active Directory (AD) を使用することを可能にします。