Amazon Web Services ブログ

CBI学会2023年大会 AWSスポンサードセッション開催報告

はじめに

国内外の製薬企業において特に創薬研究領域でのクラウド利用が大きく進んでいます。国内有数の創薬研究領域の学会であるCBI学会の中で、研究者の皆様に創薬研究領域でのクラウド利用に関する関連事例や最新サービスを学んで頂くことを目的に、AWSは2つのスポンサードセッションとブース展示を行いました。スポンサードセッションでは、2023年大会のテーマでもあった「ゲノム情報・診療情報が創り出す新しい創薬と医療」に即して、基礎生物学研究所教授 重信秀治先生をお迎えし、ゲノム科学におけるクラウド活用の実際をお話しいただきました。加えて、AWSからは、AWS HealthOmicsなどのゲノム領域に特化したサービスや、High Performance Computing (HPC) 関連の最新サービス、そして近年注目を集める生成系AIに関する事例やAWSの取り組みについてご紹介しました。本ブログでは、各セッションの講演資料を掲載すると共に、その発表内容をご紹介します。

ゲノム科学領域における最新のAWS活用〜基礎生物学研究所のゲノム解析プラットフォーム〜

パート1「ゲノム科学領域でご利用が進む最新のAWSサービス及び活用事例のご紹介」[Slide]
AWS エンタープライズ技術本部 ヘルスケア&ライフサイエンス部 鳥羽 祐輔 登壇

近年シーケンシングの技術が劇的に向上したことでゲノムデータ活用に向けた取り組みは盛んになってきており、今回の CBI 学会大会の副題にも含められています。一方で、数多くのオミクスデータを分析しようとするとデータが数ペタバイトにもなり得るため、オンプレミスのストレージや解析環境では対応しきれないことや、データ活用のスピードが落ちてしまうことがあります。お客様が集中したいのは、データをどのように活用して価値に繋げるかであり、そのための IT リソースの検討や調達、またバリアントデータ等を分析するための専用ツールを使いこなすために時間をかけることではありません。

この領域で AWS を活用いただくことで、スケーラビリティのあるストレージや計算環境を手に入れることができ、ゲノムデータ活用を加速させることができます。実際に AWS は 10 年を超える期間にわたって、医療機関や製薬企業等のお客様がこのデータを実用的なインサイトに変換するまでの時間を短縮できるようサポートしてきました。AncestryアストラゼネカIlluminaDNAnexusGenomics EnglandGRAIL 等の業界の代表的なお客様は、AWS を活用して発見までの時間を短縮しつつ、コスト削減とセキュリティ強化を同時に実現しています。

本セッションの前半では、データの転送・保存・解析の 3 つのパートから構成されるゲノムデータ活用の基本アーキテクチャをベースに、各パートで活用いただける AWS サービスをご紹介しました。中でも解析パートは行いたい解析の種類や方法によって幅広いサービスからお選びいただけるようになっており、後ほどの重信先生のセッションでも紹介いただく AWS ParallelClusterAWS Batch、パートナー様から提供されるソリューションに加えて、AWS ではゲノミクス領域特化型のサービスやツールも提供されています。

その内の 1 つが、2022 年の re:Invent で発表された新サービス AWS HealthOmics です。AWS HealthOmics は10 年以上のゲノミクス関連システムのご支援の経験から、よりお客様が健康の改善と科学的発見の促進につながるインサイトを生み出すことに専念いただけるよう設計されたマネージドサービスです。AWS HealthOmics を利用することで、ゲノムデータ、トランスクリプトームデータ、その他のオミクスデータを保存、検索、分析することができます。

セッションの後半では実際の活用事例についてもご紹介しました。その一部としてAWS HealthOmicsの最新事例であるフィラデルフィア小児病院様のお取り組みをご紹介します。マルチオミクスデータを研究者が活用するためのフレームワークを構築するプロジェクトで AWS HealthOmics を活用いただきました。背景課題としてオープンソースの解析ツールを利用するためには多くの時間と労力がかかっており、何万人もの患者のゲノム情報を収集し続けるために拡張性のあるソリューションが求められる状況でした。その中でAWS HealthOmics を活用することで、インフラ管理とオミクスに特化したデータ変換を AWS にオフロードしながら、大規模なマルチモーダルデータ解析に研究者がアクセスできるようになりました。結果として、研究者は、科学的発見のための活動により多くの時間を費やすことができるようになりました。

パート2「ゲノム科学におけるクラウド活用:独占型スパコン構築からデータ共有まで」[Slide]
自然科学研究機構 基礎生物学研究所 教授 重信 秀治 先生 ご登壇(AWS 代筆)

このパートでは、基礎生物学研究所教授 重信秀治先生にご登壇いただき、1.ゲノム研究分野におけるクラウド化の動向、2. 計算資源の確保、3. データ共有による共同研究促進、をテーマに、アカデミアの領域の中でオミクスデータを扱う際の課題やクラウド利用の実際についてご講演いただきました。

まず、近年、次世代シーケンシング(NGS)などの革新的な進歩により、研究者の方々は、膨大に増えるオミクスデータを日常的に扱う必要に迫られており、その対策として、クラウドコンピューティングが世界的にも注目されているとご紹介いただいています。その例として、例えば米国では、National Center for Biotechnology Information (NCBI)はSRA(NGSデータアーカイブ)をAWS のクラウド経由で提供するようになり、National Human Genome Research Institute Home (NHGRI)はAnVILと呼ばれるゲノム解析の統合的クラウドプラットフォームの開発を推進していると、グローバルでのクラウド活用例を挙げていただきました。また、日本のアカデミアでは、2018年に政府が「クラウドサービスの利用推進」を宣言して以降、2023年5月には、競争的研究費の直接経費からクラウド利用料の支出が可能になることが明確化され、先端的なクラウド利用例が報告されつつある現状を共有いただきました。

次に、ゲノム生物学領域において、NGSデータの大規模化、基礎研究におけるトライ&エラーの必要性、解析用のソフトウェアごとに必要なコンピューターリソースの特殊性に触れられ、柔軟で可用性のあるコンピューターリソースの確保が喫緊の課題であるとした上で、High Performance Computing (HPC) でのクラウド利用の実際についてご説明いただきました。従来の典型的なHPC環境の構成要素として、クラスターコンピュータやスパコンを利用する場合、ジョブ待ちや、OSやライブラリーのバージョンアップの固定化、サーバ調達やメンテナンスに伴う高額なコストなど、共用HPCの問題点を挙げられました。この問題に対して、基礎研究に適したHPC環境をクラウド上に作るためのサービスとして、HPC アプリケーションに必要なリソースのモデル化とプロビジョニングを自動的かつセキュアに実行可能なAWS ParallelClusterをご紹介いただきました。これにより、ジョブ待ちの無いHPC環境を実現し、研究者ごとに必要に応じた計算リソースを確保できるため解析時間が短縮され、スポットインスタンスを活用した大幅なコスト削減も実現した、とクラウド移行のメリットを語っていただきました。また、研究所とAWSはSINETで接続されており、セキュアで十分なネットワーク帯域を確保されています。

最後に、ゲノム解析結果の共有方法として、ゲノム情報を視覚的に閲覧・検索するためのツールであるゲノムブラウザに関して、目指すべき姿は「Google Mapのゲノム版」とされ、ゲノムブラウザの検索性、アクセス性、網羅性を向上させることで共同研究が加速することへの期待を寄せられています。このゲノムブラウザを構築するためのツールの代表例として、JBrowse2を挙げられ、重信先生がJBrowse2を用いて新規ゲノムブラウザのサーバレス環境をAWS上に構築されています。Amazon S3Amazon CloudFrontのサーバレスアーキテクチャで実装された結果、サーバ管理の手間削減やコスト削減、高付加耐性、世界中への高速配信等が実現し、かつ内部ネットワークに公開サーバを設置できないアカデミアの機関がほとんどのため、セキュアなクラウド環境を利用できることがメリットだとご紹介いただきました。ゲノムブラウザの中でも特にニーズが高いツールとして、配列検索ツール「Basic Local Alignment Search Tool (BLAST)」に触れられ、AWS環境を利用したLight-weight Serverless BLASTの開発に重信先生が現在取り組まれているとお話しされました。これは、NCBIから提供されるバイナリのBLASTをDockerコンテナ化し、AWS Lambdaを活用することで、BLAST環境のサーバレス化を実現されたもので、「開発後のメンテナンス面を考慮すると、サーバレスアーキテクチャを目指すべきである」と語られています。

創薬の未来へのカギ:クラウドで活用されるHPCと生成系AI

パート3「AWSのHPCへの取り組みと創薬分野における事例」[Slide]
AWS パブリックセクター技術統括本部 ソリューションアーキテクト 佐々木 啓 登壇

創薬の研究開発に用いられる計算インフラの課題として、計算需要の変動性、手法の多様性による異なる環境要件、外部とのセキュアなデータ共有、および調達や保守管理の負担が挙げられます。クラウドを活用することで、これらの課題を解決し研究プロセスを加速することができます。

クラウドは必要な時に必要な計算リソースを効率良く活用できるため、オンプレミスの限られた資源で時間がかかっていた処理を、一度に多くのリソースを立ち上げて短期間で完了させることや、ユーザやタスクごとに専用のクラスタを立ち上げて、最適な計算環境で処理することが可能です。Harvard Medical Schoolでの創薬研究では長大な計算時間が必要とされる数十億規模の化合物ドッキングシミュレーションをAWS上で228万vCPUを活用することで数時間で完了しました。

AWSのHPC関連サービスは仮想サーバ(Amazon EC2)、高速ネットワーク(Elastic Fabric Adapter)やファイルストレージ(Amazon S3、Amazon FSx for Lustre)、オーケストレーションツール(AWS ParallelCluster)があり、これらを組み合わせてオンプレミスHPCの使い慣れたツールやソリューションを実行することもできます。第一三共株式会社様は、創薬化学研究プラットフォームで、OpenEyeやSchrödingerなどの既存ツールをAWSの動的リソースに構築するとともに、新たにAI/MLサービスとの連携を行い研究業務を進歩させました。

AWSはArmベースのGravitonプロセッサを独自開発しており、2023年にHPC分野に最適化したGraviton3EインスタンスとしてHpc7gをリリースしました。

またAWS ParallelClusterはバッチジョブスケジューラとスケーラブルに伸縮するクラスタ環境を構築する公式オープンソースソフトウェアです。設定ファイルでInfrastructure as Code(IaC)を実現できるため、測定したHPC環境を別のユーザが用いることで同じ環境を再現することが可能です。

クライオ電子顕微鏡のデータ解析ソフトウェアRelionはAWS ParallelClusterを介してジョブを実行する機能が整備されています。大塚製薬様の創薬プラットフォームではRelionのデータ解析や、AlphaFoldを使ったAI基盤を整備しています。高エネルギー加速器研究機構様のGotoCloudプロジェクトでは、クライオ電子顕微鏡の出力データをAWS上にハブ化し、最適化された解析基盤をIaCで提供することで外部企業や研究機関の活動を支援しています。

理化学研究所様のバーチャル富岳プロジェクトでは、スーパーコンピューター富岳で開発されたアプリケーションを幅広く活用することを目指し、Amazon EC2 Hpc7gインスタンスへのマイグレーションを行いました。超並列分子動力学ソフトウェアGENESISは、ParallelClusterで構築したHPC環境上でソフトウェアスタックの整備、アプリケーションチューニングを行い、AWS上で有用性を検証しました。この取り組みの成果として、GENESIS on AWSとして株式会社理研数理様が商用サービスとしてGENESISを実行可能なAWS環境と利用サポートを提供しています。(2023年12月よりサービス開始)。

以上のように、AWSのサービスは、創薬研究開発の計算インフラにおける多くの課題を解決するための強力なツールとなり得ます。これにより、研究者は研究の本質に集中し、プロセスを加速させることが可能となります。

パート4「創薬における機械学習の最新動向 – 生成系 AI がもたらすイノベーション」[Slide]
AWS エンタープライズ技術本部 ハイテク・製造・自動車産業グループ ソリューションアーキテクト 森下 裕介 登壇

創薬において AWS がお客様に提供できる価値の 1 つとして、「スケーラビリティと俊敏性の両立による創薬の加速」が挙げられます。AWS は 10 年以上にわたり日本や海外の製薬会社を支援しており、創薬研究における機械学習というトピックにおいては、ゲノミクスや画像解析、量子コンピューティングなどの幅広いユースケースで AWS をご活用いただいています。創薬研究での機械学習におけるAWS 活用事例として、中外製薬様の抗体創薬への取り組み、アストラゼネカ様の腎臓病理画像解析の事例、日本たばこ産業様のグラフニューラルネットワークの活用事例をご紹介しました。

一方で、「生成系 AI」 というアプローチが昨今急速に進化を遂げています。生成系 AI とは、テキストや画像などの新たなコンテンツやアイデアを高精度に生成可能な AI の一種です。事前学習された大規模な基盤モデルの活用により、個別の学習不要で複雑で広範なタスクに対応できる柔軟性を持つようになりました。

創薬研究領域における生成系 AI の活用ユースケースは 2 つに大別できます。1 つが「汎用的な生成系AIによる研究活動の効率化」と、もう 1 つが「創薬ドメインに特化した生成系AIによる解析・デザインの高度化」です。本セッションでは前者について説明しました。後者に関しては次の石尾のセクションをご覧ください。

汎用的な生成系 AI を活用することで、論文要約や翻訳、解析コードの生成など研究にまつわる様々なタスクを効率化できます。セッションの中では、サンプルの対話型 AI アプリケーションを通して AlphaFold2 の論文を日本語で要約するデモを実施しました。

このような生成系 AI アプリケーションを簡単に構築できるサービスが Amazon Bedrock となります。Amazon Bedrockは、Amazon や最先端の AI 企業が提供する、テキストや画像生成などの様々な基盤モデルを API 経由で利用できるマネージドサービスです。基盤モデルやインフラの管理は AWS が行い、またお客様のデータが基盤モデルの学習に一切利用されることはなくプライベートかつセキュアな利用が可能となります。

こうした Amazon Bedrock などで提供される基盤モデルを、お客様固有のデータをうまく活用することが他社との差別化につながります。本セッションでは、基盤モデルとお客様固有のデータを組み合わせるアプローチの一つとして、RAG(Retrieval-Augmented Generation; 検索拡張生成)をご紹介しました。こちらは膨大な社内ドキュメントやデータから該当する情報を検索する社内文書検索の結果を基盤モデルと組み合わせるというアプローチです。基盤モデルの学習データ外の情報である社内データに基づいた正確な回答をファインチューニング不要で実現することができます。

実際にこの RAG アプローチに取り組まれている製薬業界のお客様としてアストラゼネカ様の事例を取り上げました。アストラゼネカ様では MR が医療従事者に最新かつ適切な製品情報を提供できるように、社内文書をリアルタイム検索できる仕組みを Amazon Kendra を用いて実現しました。また、これと Amazon Bedrock との組み合わせによって、より自然な対話での直感的な情報検索が可能になり、MRは医療従事者との対話をよりスムーズにできるようになると期待されています。

Amazon Bedrock は AWS マネージメントコンソールの Playgrounds からお試しできるほか、様々なユースケースを実際にご体験いただけるデモソリューションもオープンソースで提供しています。これらの試用を通じて皆様の業務の中で生成系 AI が価値を発揮するユースケースを見極めていただくことで、皆様のビジネス課題の解決につながります。

パート5「クラウドと生成系AIを活用した創薬研究:タンパク質構造予測を例に」[Slide]
AWS エンタープライズ技術本部 ヘルスケア&ライフサイエンス部 ソリューションアーキテクト 石尾 千晶 登壇

最後のセッションでは、創薬研究におけるクラウド上での生成系AIの活用についてご紹介しました。生成系AI の活用の方向性として、大別して「汎用的な生成系AIによる研究活動の効率化」と、「創薬ドメインに特化した生成系AIによる解析・デザインの高度化」があります。一つ前のセッションでは前者について紹介したので、こちらのセッションでは後者に焦点を当ててお話ししました。

医薬品開発の現場では、薬価の引き下げやパテントクリフへの対応が求められるなど、タイムリーな開発が必要になる中で、個別化医療に向けた期待も高まっており、新薬の開発は難しくなっています。こうした状況で、機械学習を活用した創薬技術が求められています。

創薬研究の質向上にはさまざまな側面があります。今回は、医薬品開発において重要な役割を持つ、タンパク質構造解析を例に取り上げました。タンパク質の数は約2億個以上ありますが、そのうち実験で構造が解明されているのは、わずか0.1%(20万個)程度です。このような状況の中で、AlphaFold をはじめとした機械学習を用いた構造予測のアルゴリズムが発表され、その後も、さまざまな企業や研究機関から次々とアルゴリズムが発表されています。

このような状況の中で、研究者が直面する課題として、新しいアルゴリズムを素早く試せること、使い慣れたインターフェースへの統合、秘匿性の高いデータをセキュアに解析することなどが挙げられます。また、開発環境のスケーラビリティや計算環境の強化、コスト最適化も重要な要素です。

クラウドを活用することで、スケーラビリティのある開発環境で、柔軟かつ効率的な解析ができるようになり、研究者は研究の本質により一層集中できるようになります。AWSでは、AWS ParallelClusterAWS BatchAWS HealthOmics など、様々な実行環境が提供されています。このような実行環境と合わせて、各研究者が使い慣れたインタフェースを使うことで、素早く解析を開始することができます。インターフェースと実行環境の組み合わせは、各研究者の好みによってどのように組み合わせても構いませんが、例として、以下の図中の ② の組み合わせについて掘り下げて説明しました。

② の構成は、以下の図に示す通りで、大きく3つのパートに分かれており、それぞれ Jupyter Notebook のインターフェース(左側)、スケーラブルな計算環境(下側)、大規模データを高速に処理するためのストレージ(右上)となっています。計算環境としては AWS Batch が使われており、AlphaFold2 をはじめとした10種類以上のアルゴリズム用のコンテナを、必要な時に必要な分だけ起動して計算できます。この構成全体をみなさまの環境ですぐにお使いいただけるよう、実装ガイドや、CloudFormation テンプレートを含むソースコードも提供しております。また、この実装をさらに発展させたものとして、AWS Drug Discovery Workbench というウェブアプリのフロントエンド付きの実装例もご紹介しました。

最後に、創薬研究における生成系AI の活用をさらに進めていくための支援プログラムとして、Generative AI Innovation Center についても触れました。お客様とAWSのAI/機械学習エキスパートをつなぎ、生成系AIを活用したシステムやモデルの構築と展開をサポートするプログラムとなっていますので、ぜひ合わせてご活用ください。

おわりに

AWSはインダストリーに特化したお客様の事業課題に対してご支援をしております。過去のお客様のお取り組み/事例をヘルスケア・ライフサイエンスWebページに掲載しておりますので、ぜひお立ちよりください。また今回のブログに関してご質問やご要望がある場合には、担当営業もしくはお問い合わせページよりご連絡をお願いいたします。

著者について

Yusuke Toba

鳥羽 祐輔 (Yusuke Toba) エンタープライズ技術本部 ヘルスケア&ライフサイエンス部 ソリューションアーキテクト

現在は製薬企業のお客様向けにクラウド活用に関する技術的なご支援をおこなっています。

Kei Sasaki

佐々木 啓 (Kei Sasaki) パブリックセクター技術統括本部 ソリューションアーキテクト

大学・研究機関のお客様を中心に、研究・教育・事務のクラウド化の技術支援を担当しております。

Yusuke Morita

森下 裕介 (Yusuke Morishita) エンタープライズ技術本部 ハイテク・製造・自動車産業グループ ソリューションアーキテクト

製造業のお客様を中心に技術支援を担当しております。

Chiaki Ishio

石尾 千晶 (Chiaki Ishio) エンタープライズ技術本部 ヘルスケア&ライフサイエンス部 ソリューションアーキテクト

エンタープライズの製薬業界のお客様向けに、クラウド活用のための技術支援をおこなっています。

Yuto Kataoka

片岡 勇人 (Yuto Kataoka) ヘルスケア・ライフサイエンス事業開発部 シニア事業開発マネージャー

クラウドに対する日本のお客様固有の要件にお応えするために、AWS グローバルチームとも連携し、ヘルスケア・ライフサイエンス領域のお客様の取組みをご支援しております。