Amazon Web Services ブログ
Amazon Omicsの新機能により、ヘルスケア・ライフサイエンスのお客様における、利用開始やアプリケーション構築、スケールアップを容易に
この記事は “New capabilities make it easier for healthcare and life science customers to get started, build applications, and scale-up on Amazon Omics” を翻訳したものです。
オンコロジー研究から創薬、治療に至るまで、さまざまな形式のオミックスデータを統合的に分析することで、研究者や臨床医は新しい洞察を生み出し、より個別化された医療を提供できるようになっています。マルチオミックスの価値は明らかですが、ヘルスケアおよびライフサイエンスのお客様は、コスト削減と洞察の加速に役立つ分析を開始し、アプリケーションを構築し、スケールアップするためのより良いツールを求めています。
ヘルスケアおよびライフサイエンスのお客様がゲノム、トランスクリプトーム、その他のオミックスデータを保存、クエリ、分析するための大規模な構築を支援するために、私たちは re:Invent 2022 で Amazon Omics をローンチしました。フィラデルフィア小児病院、Ovation、G42 Healthcare などのお客様が Amazon Omics を採用して、バイオインフォマティクス分析パイプラインを本番規模で運用し、インフラストラクチャの管理に費やす時間を減らしているのをすでに見てきました。
図 1. Amazon Omics: Storage、Workflows、Analytics の仕組み
しかし、お客様が業界標準の分析ワークフローを変更することなくそのまま実行したいと考えるユースケースは数多くあります。ゲノム、トランスクリプトーム、その他のオミックスデータを大規模に分析するには、データセットを処理するための専用のバイオインフォマティクスワークフローが必要です。また、生物学のバックグラウンドを持ち、さまざまなプログラミング言語、データベース、ツールの知識を持つ人材も必要です。さらに、これらのワークフローの管理と実行は複雑で時間がかかり、価格も予測できません。ローカルでこれを行うと高価なハードウェアを構築して保守するための初期費用がかかります。
そのために、ヘルスケアおよびライフサイエンスのお客様がワークロードの構築、実行、拡張をより簡単に行えるように設計された Amazon Omics の新機能を発表できることを嬉しく思います。これらの新機能が、Kite Pharma、コロンビア大学医療センター、FYR Diagnostics などのお客様によってすでに今日利用されていることを目にして、私たちはとても嬉しく思っています。
ボストンで毎年開催される AWS ライフサイエンスエグゼクティブシンポジウムで 5 つの新機能を発表しました。
- 迅速に開始: Sentieon、NVIDIA Parabricks、Element Biosciences、そして GATK ベストプラクティス、nf-core scRNAseq、タンパク質予測のための AlphaFold や ESMFold を含むオープンソースパイプラインの Ready2Run ワークフローを簡単に使用できます。
- 処理能力の向上: Omics Workflows で NVIDIA T4 および a10 グラフィカルプロセッシングユニット (GPU) を使用し、計算量の多いパイプラインをサポートすることができます。
- データの直接取り込み: 新しい取り込み API を使用して、データ (FASTQ、CRAM、BAM) を Omics Storage に直接アップロードできます。
- バリアントのクエリと解析がより簡単に: Variant Effect Predictor (VEP) アノテーションを含むバリアントデータを自動的にパースして別のデータ構造にすることでクエリと分析を容易にします。
- イベント駆動型アプリケーション: Amazon EventBridge との統合により、お客様は Amazon Omics が公開したイベントをイベント駆動型アーキテクチャの一部として使用できるようになりました。
図 2. Amazon Omics は、プライベートワークフローとReady2Runワークフローによってバイオインフォマティクスワークフローの実行を管理します
Ready2Runワークフローでより早く開始する
Ready2Run ワークフローは、サードパーティのソフトウェア会社とオープンソースパイプラインの事前構築済みワークフローのセットです。数回クリックするか 1 回の API 呼び出しを行うだけで、事前に構築されたパイプラインを実行して、ベースコールを FASTQ ファイルに変換するなどの一次解析、遺伝子発現やバリアントコールなどの二次解析、タンパク質構造予測などの三次解析を実行できます。Ready2Runのワークフローは実行ごとに価格が設定されており、お客様が予測しやすい価格設定となっています。
図 3. Amazon Omics には 35 種類の Ready2Run ワークフローがあらかじめ構築されており、コンソールで簡単に検索して選択できます
Ready2Runワークフローを利用することで、お客様は確立されたパイプラインのセットを簡単に実行することができるようになります。Element Biosciences、NVIDIA、Sentieon Inc. が構築したワークフローと、ライフサイエンス業界で開発された人気のオープンソースパイプラインを組み合わせた 35 種類の Ready2Run ワークフローをリリースしています。
お客様はデータを持ち込むだけでこれらのワークフローを数分で実行できるようになりました。また、ワークフローの概要やワークフロー図にアクセスできるようになり、Amazon Omicsでワークフローがどのように実行されるかの詳細情報を確認することができます。
Ready2Run ワークフローはプライベートワークフローに変換することも可能で、より柔軟性を高め、お客様特有のユースケースに対応するためにより大きな入力ファイルサイズをサポートすることもできます。プライベートワークフローの料金は、Omics インスタンスタイプと実行ストレージの使用量に基づいています。
図 4.Ready2Runの各ワークフローには、説明、ストレージ容量、概要、図などの関連情報が含まれています
Sentieon、NVIDIA、Element Biosciences の Ready2Run ワークフロー
Sentieon Ready2Run ワークフロー:
Sentieon のワークフローは、ゲノム解析のための堅牢でスケーラブル、かつタイムリーなソリューションを提供します。Amazon Omics は、ショートリードおよびロングリードのデータセットに対するアライメント、生殖細胞系および体細胞系のバリアントコールのワークフローを含む 9 種類の Sentieon Ready2Run ワークフローを提供しています。詳細については、Sentieon Ready2Run ワークフローに関するブログをご覧ください。
NVIDIA Parabricks Ready2Run ワークフロー:
NVIDIA Parabricks は、DNA と RNA 用に最適化された AI ベースのさまざまなゲノムツールを含む高速ゲノム解析アプリケーションのスイートで、コストと時間を節約することができます。Amazon Omicsでは、体細胞系および生殖細胞系のワークフロー向けに 13 種類の NVIDIA Parabricks Ready2Run ワークフローを提供しています。詳細については、NVIDIA Parabricksワークフローに関するブログをご覧ください。
Element Biosciences Ready2Run ワークフロー:
Element の Bases2Fastq ワークフローは、Element の AVITI デスクトップシーケンサーからの一次データを処理し、二次解析に使用する FASTQ ファイルを生成します。Amazon Omicsでは、Bases2Fastq を Ready2Run ワークフローとして提供しています。詳細については、Element の Bases2Fastq ワークフローに関するブログをご覧ください。
オープンソースの Ready2Run ワークフロー
タンパク質構造予測ワークフロー:
タンパク質構造予測とは、タンパク質のアミノ酸配列からタンパク質の三次元構造を特定するプロセスです。タンパク質の構造情報により研究者はタンパク質の機能をよりよく理解できるようになり、タンパク質がどのように機能するか、他の分子とどのように相互作用するか、どのように薬剤の標的になるかについての洞察が得られます。
DeepMind の AlphaFold と Meta AI Research の ESMFold Ready2Run ワークフローが Amazon Omics に登場したことで、お客様はソフトウェアツールやワークフロー定義ファイルをパッケージ化しなくても、これらのワークフローを簡単に実行してアミノ酸配列からタンパク質の立体構造を予測することができるようになりました。
AlphaFold Ready2Run のワークフローでは、DeepMind の AlphaFold モデルを使用して3次元構造を予測します。ESMFold Ready2Run ワークフローでは、Facebook AI Research(FAIR)の大規模言語モデルを使用して3次元構造を予測しています。ESMFold モデルは、マルチシーケンスアラインメント(MSA)トランスフォーマーに基づくモデルよりも最大 60 倍速くタンパク質構造を予測できます。
Broad Institute が開発した GATK ベストプラクティスのワークフロー:
GATK ベストプラクティス Ready2Run ワークフローは、Broad Institute のデータ前処理とバリアント検出のベストプラクティスに基づいています。これらのワークフローは、Genome Analysis Tool Kit (GATK) バージョン 4.2.6.1 を使用しています。
scRNAseq ワークフロー:
nf-core scRNAseq Ready2Run ワークフローは nf-core/scrnaseq パイプラインに基づいており、ドロップレットシングルセル RNA シーケンシングデータを分析するための STARsolo、Kallisto、または Salmon Alevin-fry の実装を提供しています。
Amazon Omics Ready2Run ワークフローのお客様
「Kiteは、がんを治療し、治癒する可能性を秘めた細胞療法に特に重点を置いています。我々はすでに、シングルセルRNAシーケンスデータを解析する scRNAseq のための Amazon Omics Ready2Run ワークフローのパワーを目の当たりにしています。」- Jenny Wei、ギリアド社、Kite Pharma、研究開発インフォマティクス&テクノロジー責任者、シニアディレクター
「コロンビア大学アービングメディカルセンター(CUIMC)は、科学研究、健康・医学教育、患者ケアにおいてグローバルなリーダーシップを発揮する臨床、研究、教育機関です。GATK ベストプラクティス、NVIDIA Parabricks、Sentieon のパイプラインに対する AWS の Ready2Run ワークフローの使いやすさ、拡張性、コストの透明性は、あらゆる規模のバイオインフォマティシャンに対する障壁を著しく下げると確信しています。AWS の分析エコシステムへのネイティブ統合と相まって、臨床ゲノミクスのペースは大幅に加速するでしょう。」- Daniel S. T. Hughes 博士、コロンビア大学アービングメディカルセンター、ゲノム医学研究所&プレシジョンゲノミクス研究所、バイオインフォマティクスディレクター
「FYR Diagnostics は、細胞外小胞の革新的な特性と他の革命的なバイオマーカーを利用することにより、現在満たされていない診断ニーズを満たす次世代の液体生検ソリューションを開発しています。Element Biosciences の Bases2Fastq Ready2Run ワークフローを素早く簡単に起動できました。このソリューションを使用してパイプラインを効率化し、AVITI からデータを取得して二次解析に入るまでの時間(と労力)を大幅に短縮して、シーケンサーサービスと研究開発活動に役立てることを嬉しく思います。」- Claire Seibold、FYR Diagnostics 社、ソフトウェア・データ分析担当ディレクター
Amazon Omics のその他の機能
プライベートワークフローでの GPU アクセスによる処理能力の向上:
Omics のプライベートワークフローでは、お客様は独自のワークフロースクリプトを持ち込んで、ワークフロー内の各タスクに必要なコンピューティングリソースを指定できます。お客様は、NVIDIA T4 および A10G GPU を Omics プライベートワークフローで使用できるようになり、NVIDIA Parabricks およびオープンソースのタンパク質フォールディングパイプラインによる高速な AI ベースのゲノミクス解析をサポートできるようになりました。
Omics Storage への直接データ取り込み:
Omics Storage により、お客様は FASTQ、BAM、および CRAM ファイルを費用対効果の高い価格で大規模に保存できます。これまで Omics は、配列リードセットを大量に読み込むための非同期でのバッチアップロードプロセスを提供していました。この新しい機能により、単純な同期アップロード機能が追加されます。マルチパートのダイレクトアップロード API により、お客様は簡単にデータをシーケンスストアに直接アップロードできるようになりました。この機能により、お客様は既存の処理パイプラインやシーケンサーを統合し、その出力をシーケンスストアに直接書き込むことができます。さらに、転送マネージャーユーティリティが更新され、お客様が 1 つの python コマンドで大きなファイルを直接アップロードできるようになりました。
バリアントデータの自動解析によるクエリと分析の簡略化:
Omics Analytics により、顧客はバリアントコールファイル(VCF)とアノテーションデータを変換して、マルチオミックス分析やマルチモーダル分析に使用することができます。バリアントデータの自動解析により、Variant Effect Predictor(VEP)によって生成されたアノテーションを含むお客様の VCF が新しいデータ構造に分離されるようになり、クエリや分析がより容易になりました。
Amazon EventBridge との統合によるイベント駆動型アプリケーション
Amazon EventBridge は、AWS のサービス、サードパーティアプリケーション、およびお客様自身のアプリケーションの間でイベントを簡単に接続してルーティングすることができるサーバーレスイベントバスです。Amazon Omics と Amazon EventBridge が統合されたことで、お客様は Amazon Omics が公開したイベントをイベント駆動型アーキテクチャの一部として使用し、臨床検査情報システム(LIMS)や診断レポートシステムなどのソフトウェアアプリケーションや他の AWS サービスと容易に統合できるようになりました。
結論
Ready2Run ワークフロー、Omics Workflows での GPU サポート、Omics Storage への直接アップロード、自動バリアントデータ解析、Amazon EventBridge 統合の発表により、ヘルスケアおよびライフサイエンスのお客様は Amazon Omics の専用機能によって研究の拡大や科学的発見の加速を支援する新しい機能を手に入れました。
Amazon Omics にアクセスして詳細をご覧ください。
Ready2Run ワークフローを開始するには、Amazon Omics コンソールにアクセスしてください。
Ready2Run ワークフローをプライベートワークフローに変換するには、Amazon Omics チュートリアルをご覧ください。
翻訳はソリューションアーキテクトの鳥羽が担当しました。原文はこちらです。