50%~75%
ファイル検索時間の短縮
大幅に減少
コンピューティングインスタンスのコスト
数百件
データ検索の同時実行数
向上
研究者の生産性を向上しつつ、強力なデータセキュリティを維持
向上
組織におけるデータのアクセシビリティと再利用性
概要
ドイツに本社を置く BioNTech は、がんや感染症に対する免疫療法やワクチン (Pfizer と BioNTech による COVID-19 ワクチンなど) の開発を専門とするグローバル企業です。質量分析 (MS) は、患者由来の腫瘍組織または細胞株からヒト白血球抗原 (HLA) 分子に結合したペプチドを直接同定するための強力な技術です。これらの HLA イムノペプチドームは、細胞ベースの治療法の抗原発見のソースとして利用できるほか、ワクチン開発に役立つ機械学習モデルのトレーニングにも使用できます。
BioNTech は、テラバイト単位の MS データを保存、整理、処理するためのワークフローをさらに改善し、効率性とスケーラビリティを向上させることを目指していました。そこで、オンプレミスの MS ソフトウェアとデータストレージを Amazon Web Services (AWS) に移行することにしました。これにより、スケーラブルで安全な最先端の処理が可能になりました。 BioNTech は AWS Storage Gateway を使用して、インサイトを得るまでの時間を短縮するとともに、研究者がより簡単に MS データを共有し、共同作業を行えるようにしました。AWS Storage Gateway は、オンプレミスのアプリケーションに事実上無制限のクラウドストレージへのアクセスを提供するサービスです。
機会 | AWS Storage Gateway を使用して、BioNTech の質量分析データの処理をさらに合理化および高速化
質量分析は、臨床的に重要な組織や細胞株を 1 回分析するだけで、何千ものユニークな HLA 結合ペプチドを検出して同定できるため、イムノペプチドミクスの強力な方法論となっています。1 回の取得で得られる未加工のデータセットは、膨大なスペクトルの集合体であり、リファレンスプロテオームデータベースと照合してペプチドやタンパク質の同定結果を得ることができます。プロテオミクスとイムノペプチドミクスのワークフローでは、Spectrum Mill MS Proteomics Software などのソフトウェアパッケージが、日常的に収集される大量の MS データの処理と分析に不可欠なコンポーネントとなっています。
2022 年まで、同社はこのソフトウェアをローカルサーバーで実行していました。研究者は、器具コンピュータから Spectrum Mill を実行しているローカルワークステーションにデータを手動で移動しなければなりませんでした。これらのデバイスはすぐにいっぱいになるため、データをアーカイブするための追加の手順が必要でした。BioNTech の data engineer である Akhil Chaudhary 氏は次のように述べています。「データの総量が 10~15 テラバイトに達していたため、オンプレミスデバイスへの移行には時間と手間がかかりました」。同社の solutions architect を務める Michael McCarthy 氏は、次のように語っています。「研究活動が拡大するにつれて、収集した MS データも大幅に増加しました。ローカルのハードウェアでは、当社の規模に対応できなくなったのです」。
BioNTech の計算生物学チームは、ペプチドとタンパク質の情報を最大限に活用して新たな発見につなげようとしていました。その取り組みの一環として、データ処理と解釈された結果へのアクセスを高速化するため、さまざまな検索パラメータとタンパク質配列データベースを使用して何百ものリクエストを同時に処理する方法を必要としていました。同部門はデータ処理機能を水平方向にスケールするツールを構築するため、社内の中心的なデータおよび分析グループである BioNData チームに働きかけました。同チームは、ハイブリッドラボデータモデルを構築し、水平方向へのスケーリングが可能な API を開発する手段として、AWS を選択しました。McCarthy 氏は続けます。「米国では製品に AWS を使用して成功を収めてきた長い歴史があるため、これは自然な選択でした」。
当社の研究者は、特定の患者に合わせた効果的な治療法を見つけることを目指して、AWS でのデータの生成および共有を大きく増進しています。想像力を駆使すれば、AWS でどんなことでも実現できると考えています"
Michael McCarthy 氏
BioNTech、Solutions Architect
ソリューション | 並列化されたワークフローによりデータ処理を大幅に高速化
BioNTech は第 1 フェーズで、データを MS 器具コンピュータからクラウドにシームレスに移動し、AWS で Spectrum Mill をホストできるようにすることに重点を置いていました。第 2 フェーズでは、検索リクエストを同時に実行するシステムを構築しました。
MS の未加工データをクラウドに移動するために、BioNTech はすべての器具コンピュータに AWS Storage Gateway エージェントをインストールしました。MS の未加工データは、取得後に Amazon Simple Storage Service (Amazon S3) に迅速かつ自動的に移行されます。Amazon S3 は、どこからでも任意の量のデータを取得できるように構築されたオブジェクトストレージサービスです。「非常に高速で、5 GB のファイルが Amazon S3 に表示されるまでに 5~10 秒しかかかりません」と Chaudhary 氏は言います。複数の器具で大規模なデータセットが生成されるため、この MS データパイプラインを使うことで、一元化されたローカリゼーションにデータをより効率的に移行し、簡単にアクセスして処理やアーカイブができるようになります。
BioNTech の計算生物学チームは、新しいワークフローをすぐに採用しました。McCarthy 氏は次のように語っています。「誰もがクラウドベースのシステムを使用しており、研究者はその方がずっと簡単だと感じています。私たちは AWS でのデータ管理を自動化して、研究者が研究に集中できるようにしています」。
次に、チームは Spectrum Mill を Amazon Elastic Compute Cloud (Amazon EC2) にインストールしました。Amazon EC2 は、安全でサイズ変更可能なコンピューティング性能を備え、事実上あらゆるワークロードに対応します。「Spectrum Mill をクラウド上で実行することで、個々の検索時間を 50~75 パーセント短縮できました」と Chaudhary 氏は言います。さらに、BioNTech は Amazon EC2 スポットインスタンスを運用しています。Amazon EC2 スポットインスタンスでは、オンデマンド価格と比較して最大 90 パーセント低いコストで耐障害性のあるワークロードを実行できます。同社はインスタンスを使用した時間分だけ支払いを行うため、コンピューティングコストを大幅に削減できました。
チームは一度に実行できるワークフローの数を増やすため、インスタンスの起動に必要な情報を提供する Amazon マシンイメージと、変化する需要に合わせてコンピューティング能力を追加または削除できる Amazon EC2 Auto Scaling を使用しています。「検索時間が 50~75 パーセント短縮されました。Amazon EC2 Auto Scaling を使用すれば、数百のインスタンスを並行して実行し、データ処理を最大 500 倍も高速化できます」と McCarthy 氏は語っています。
BioNTech は、フルマネージド型のメッセージキューサービスである Amazon Simple Queue Service (Amazon SQS) を使用して Spectrum Mill のワークフローを管理しています。また、規模を問わず API を作成、保守、保護するためのサービスである Amazon API Gateway を使用して、Spectrum Mill の検索を実行しています。その後、Amazon Redshift のデータウェアハウスからデータを取得します。Amazon Redshift は、コストパフォーマンスに優れたクラウドデータウェアハウスを提供しています。これらのデータセットは、研究チームが治療標的を特定し、ワクチン設計用の人工知能アルゴリズムを構築するために使用されます。
チームは、AWS アカウント間でデータセットを共有するためのオープンソースツールである data.all を使用して、処理された結果を社内のデータ利用者と結び付けています。その結果、研究者はデータ管理に時間を費やす必要がなくなりました。McCarthy 氏は次のように述べています。「当社の研究者は、特定の患者に合わせた効果的な治療法を見つけることを目指して、AWS でのデータの生成および共有を大きく増進しています」。
成果 | より多くのワークフローでスピードとスケーラビリティを向上
BioNTech は、AWS で新しいワークフローを実行するメリットをすぐに実感しました。Chaudhary 氏は次のように語っています。「過去 7 年間に行ってきたすべての作業を、ほとんど費用をかけずに 60 時間でやり直すことができました」。チームは次のフェーズで、質量分析分析ツールの改善と自動化により、ペプチドの誤発見率を下げることを目指しています。また、BioNTech のすべてのチームが日々のワークフローで API の恩恵を受けられるように、API を中心にグラフィカルなラッパーを作成しています。
「Spectrum Mill プロジェクトは、私たちが計画している多くのプロジェクトの 1 つ目にすぎません」と McCarthy 氏は言います。「このプロジェクトにより、他の国のチームでも同様の問題を解決できるという自信を得ることができました。想像力を駆使すれば、AWS でどんなことでも実現できると考えています」。
BioNTech について
BioNTech は、能動免疫療法を開発し、がんやその他の疾患の治療法やワクチンの臨床試験を行う世界的な免疫療法研究開発企業です。
利用している AWS のサービス
AWS Storage Gateway
AWS Storage Gateway は、事実上無制限のクラウドストレージへのオンプレミスアクセスを提供する一連のハイブリッドクラウドストレージサービスです。
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) は、極めて幅広く、奥深いコンピューティングプラットフォームを提供します。また、ワークロードのニーズに最も適切に対応できるように、750 を超えるインスタンスを提供するほか、最新のプロセッサ、ストレージ、ネットワーク、オペレーティングシステム、購入モデルを選択できます。
詳細 »
Amazon S3
Amazon Simple Storage Service (Amazon S3) は、業界随一のスケーラビリティ、データ可用性、セキュリティ、パフォーマンスを提供するオブジェクトストレージサービスです。
詳細 »
Amazon SQS
Amazon Simple Queue Service (Amazon SQS) は、ソフトウェアコンポーネント間で任意の量のメッセージを送信、保存、受信することができ、メッセージを失ったり、他のサービスを利用したりする必要もありません。
詳細 »
ライフサイエンスお客様の事例
今すぐ始める
あらゆる業界のさまざまな規模の組織が AWS を活用してビジネスを変革し、日々ミッションを遂行しています。当社のエキスパートにお問い合わせいただき、今すぐ AWS ジャーニーを開始しましょう。