Amazon Web Services ブログ

NIH STRIDESの成果として: 米・国立生物工学情報センターのコロナウイルスゲノム配列データセットをAWS上で公開

Amazon Web Services (AWS) と 米・国立衛生研究所 (National Institutes of Health :NIH) の米・国立生物工学情報センター (National Center for Biotechnology Information: NCBI) は、新型コロナウイルス感染症  (COVID-19) の研究を支援するためのコロナウイルスゲノム配列データセットの作成を発表しました。このデータセットは AWS Open Data Sponsorship Program によってホストされ、AWS 上の Registry of Open Data でアクセス可能であり、研究者がCOVID-19の研究で使うためにコロナウイルスの配列データに無料で素早く簡単にアクセスできます。

コロナウイルスのデータをクラウドに一元化

コロナウイルスゲノム配列データセット は、研究者が提出した次世代シーケンスのデータ(元のファイル形式)と、米・国立医学図書館 (National Library of Medicine : NLM)NCBI によってホストされる SRA プロセスのシーケンスデータ(ETLファイルフォーマット)の集合体です。このデータセットは、NIH Science and Technology Research Infrastructure for Discovery,Experiments,and Sustainability (STRIDES) Initiative の一部です。STRIDES Initiative では、 AWS と NIH が協力することで、研究者のストレージとコンピューティングのニーズに対する持続可能でスケーラブルなソリューションとしてのクラウドの提供を探求しています。STRIDES Initiative を活用することで、NIH ならびに NIH が資金を提供する機関は、研究データの生成、分析、共有にあたり孤立化してしまう状態を解消し、強固で相互に連携したコミュニティを作り始めることができます。NIH からの助成金を受けている研究者は、NIH からの助成金を受けている研究プロジェクトのために、STRIDES Initiative  を活用することができます。

なぜすべてのコロナウイルスゲノムが重要なのか

コロナウイルスのゲノム配列データは、現在ならびに将来のパンデミックを理解し、対応するために重要です。例えば、異なる個体から分離された SARS-CoV-2 株間の遺伝的配列の違いは、ウイルスがいかに急速に進化しているか、そしてそれが症状の重篤度および病気の進行にどのような影響を及ぼすかを明らかにする可能性があります(ただし、最近の研究では、個体の遺伝子が COVID-19 感染に対する反応にも関与していることが示されています)。

異なる地域の患者から分離されたウイルス配列を比較することは、COVID-19の診断検査をより正確にするのにも役立ちます。さらに、SARS-CoV-2 と他のベータコロナウイルス属との間の遺伝的差異を同定することは、SARS-CoV-2 が宿主にどのように影響するかについての洞察を提供します。例えば、COVID-19 ゲノムの主要な違いは、おそらくCOVID-19の特異的な細胞表面受容体- ACE2 に対する特異的な親和性が寄与しているとみられ、それは肺細胞内へ入る方法として使われます。

コロラド大学ボルダー校バイオフロンティア研究所の Ryan Layer 准教授は、「 COVID-19 のアウトブレイクを封じ込め、将来のパンデミックに備えるためには、SARS-CoV-2 ゲノムを他の COVID-19 患者および多様なコロナウイルス科との関連で深く理解する必要がある」と述べています。「NCBI コロナウイルスゲノム配列データセットは、10 年以上にわたるウイルスゲノムデータを研究者がオープンにアクセスできるようにし、研究コミュニティの誰もがパンデミックへの対応に参加できるようにします。」

NCBIコロナウイルスゲノム配列データセットを探索する

データセットは一般に公開されており、2つのバケットに分割されています。最初のバケット (s3://sra-pub-sars-cov2) には、SRAのコードによって分類された未加工ファイルと正規化ファイルが含まれます。 2つ目のバケット (s3://sra-pub-sars-cov2-metadata-us-east-1) は、メタデータを含みますが、これは現在進行中で、まもなく Amazon Athena からクエリでの検索が可能となります。

ここでは、Amazon Command Line Interface (CLI) を使用して、Amazon Simple Storage Service (Amazon S3) からデータセットに直接アクセスする例を示します。 AWS CLI をまだセットアップしていない場合には、こちらのリンク先の手順にてインストールを済ませておきます。

AWS CLI をダウンロードしたら、ls コマンドを使用してバケットの内容をリスト表示できます。

aws s3 ls s3://sra-pub-sars-cov2 --no-sign-request
README.txt
run/       #these are researcher-submitted accessions
sra-src/ #these are SRA-normalized accessions

このように、このバケットは研究者が投稿したデータ(run/)と正規化された(sra-src/)データで構成されています。

sra-src/のフォルダに移動すると、追加のフォルダがアクセッション・コード別に整理されて表示されます。

aws s3 ls s3://sra-pub-sars-cov2/sra-src/ --no-sign-request
PRE SRR9967741/
PRE SRR9967743/
PRE SRR9967744/
PRE SRR9968565/
PRE SRR9968569/
PRE SRR9971528/
PRE SRR9972576/
PRE SRR9982828/
.
.
.

各アクセスフォルダの内容を一覧表示すると、使用可能な生データが表示されます。

aws s3 ls s3://sra-pub-sars-cov2/sra-src/SRR9967744/ --human-readable --no-sign-request
2020-05-29 15:19:13   20.3 MiB cs062.R1.fastq.gz
2020-05-29 15:19:10   21.6 MiB cs062.R2.fastq.gz

AWSがどのように研究を支援しているかを知る

このデータセットの操作に慣れてきたら、次は科学的にさらに深く掘り下げていきます。二次および三次ゲノム解析ソリューションについては、クラウドでのゲノミクスを参照してください。

また、COVID-19 研究サポートの AWS Diagnostic Development InitiativeCOVID-19 の研究と開発のための AWS での HPC のページも参照ください。

さらに、どのようにAWSを利用してで複雑な研究ワークロードを解決し、科学研究を推進しているかについては、 AWS での研究およびテクニカル向けコンピューティング のWebページに案内があります。

NIH STRIDES Initiativeに関するさらなる情報が必要な場合はこちらをご覧ください。

 

本 blog は Taking COVID in STRIDES: The National Center for Biotechnology Information makes coronavirus genomic data available on AWS を、パブリックセクター シニアソリューションアーキテクト 櫻田武嗣、パブリックセクターエデュケーションプログラムマネージャー  澤扶美、技術統括本部 ソリューションアーキテクト 益子直樹、インダストリー事業開発部 シニア事業開発マネージャー (ヘルスケア・ライフサイエンス) 佐近康隆が翻訳しました。