Amazon Omics のご紹介 – ゲノムデータおよび生物学的データを大規模に保存、クエリ、分析するための専用サービス

高校の生物学の授業で、ヒトゲノムは、デオキシリボ核酸 (DNA) でアデニン (A)、グアニン (G)、シトシン (C)、チミン (T) を組み合わせた 30 億文字を超えるコードで構成されていることを学ぶかもしれません。ヒトゲノムは、すべてのヒト細胞の生物学的設計図として機能します。そして、それは私たちを人間たらしめる基盤にすぎません。

医療機関やライフサイエンス機関は、患者の治療を改善し、科学的研究を推進するために、無数の種類の生物学的データを収集しています。これらの組織は、病気に対して個人の遺伝的素因をマッピングしたり、タンパク質の構造と機能に基づいて新薬の標的を特定したり、特定の細胞で発現する遺伝子に基づいて腫瘍をプロファイリングしたり、腸内細菌がヒトの健康に及ぼす影響を調査したりしています。多くの場合、これらの研究は「オミクス」と総称されます。

AWS は、10 年を超える期間にわたって、医療機関やライフサイエンス組織がこのデータを実用的なインサイトに変換するまでの時間を短縮できるようサポートしてきました。Ancestry、AstraZeneca、Illumina、DNAnexus、Genomics England、GRAIL などの業界のリーダー的存在である企業は、AWS を活用して発見までの時間を短縮しつつ、コスト削減とセキュリティ強化を同時に実現しています。

これらのお客様や他のお客様の事業規模は急速に拡大し続けています。個人の数千または数十万 (またはそれ以上である場合もあります!) に及ぶオミクスデータを比較および分析することで、病気やさまざまな薬物治療の有効性を予測するための新しいインサイトを得ることができます。

ただし、この規模ではデータが数ペタバイトにもなり得るため、複雑さが増す可能性があります。私が博士課程で医療情報学を学んだとき、データアクセス、処理、ツールの点でこの複雑さを経験しました。費用対効果が高く、アクセスしやすいオミクスデータを保存する方法が必要です。精度と信頼性を維持しながら、何百万もの生体サンプルにわたってコンピューティングをスケールする必要があります。また、集団全体の遺伝子パターンを分析したり、病気を予測するための機械学習 (ML) モデルをトレーニングしたりするための専用ツールも必要です。

11 月 29 日、Amazon Omics の一般提供の開始についてお知らせします。Amazon Omics は、生物情報学者、研究者、科学者が、ゲノム、トランスクリプトミクス、その他のオミクスデータを保存、クエリ、分析し、そのデータからインサイトを生成して健康を改善し、科学的発見を促進するのに役立つ専用サービスです。

Omics コンソールで数回クリックするだけで、ペタバイト規模のデータをインポートして、分析用に最適化された形式に正規化できます。Amazon Omics は、オミクスデータの準備と分析のためのスケーラブルなワークフローと統合ツールを提供し、基盤となるクラウドインフラストラクチャを自動的にプロビジョニングおよびスケールします。そのため、お客様は科学の進歩に注力し、発見を診断や治療に活かすことができます。

Amazon Omics には次の 3 つの主要コンポーネントがあります。

Omics 最適化オブジェクトストレージ。これにより、お客様はデータを効率的かつ低コストで保存および共有できます。
バイオインフォマティクスワークフロー用のマネージドコンピューティング。これにより、お客様は基盤となるインフラストラクチャのプロビジョニングについて心配することなく、指定した正確な分析を実行できます。
集団の規模に合わせたバリアント分析のために最適化されたデータストア。

それでは、Amazon Omics の各コンポーネントについてさらに詳しく見ていきましょう。一般的には、データストアの作成とデータファイルのインポート (ゲノム配列決定の raw データなど)、基本的なバイオインフォマティクスワークフローの設定、既存の AWS 分析および ML サービスを使用した結果の分析などのステップに従います。

Omics コンソールの [Getting Started] (開始方法) ページには、Amazon SageMaker ノートブックと Python SDK を使用したチュートリアルの例が含まれています。ヒトゲノムリファレンスを使用した例を通じて Amazon Omics の機能をご紹介します。

Omics データストレージ
Omics データストレージは、ペタバイト規模のオミクスデータを効率的に保存および共有するのに役立ちます。Omics コンソールでデータストアを作成したり、サンプルデータをインポートしたりできるほか、AWS コマンドラインインターフェイス (AWS CLI) でも同じ処理を実行できます。

ここで、リファレンスストアを作成して、リファレンスゲノムをインポートしてみましょう。この例では、Genome Reference Consortium Human Reference 38 (hg38) を使用します。これはオープンアクセスで、次の Amazon S3 バケットから入手できます: s3://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta。

前提条件として、希望のリージョンに Amazon S3 バケットを作成し、S3 バケットにアクセスするために必要な IAM 許可を備えている必要があります。Omics コンソールでは、Omics ストレージの設定中に IAM ロールを簡単に作成および選択できます。

次の AWS CLI コマンドを使用してリファレンスストアを作成し、ゲノムデータを S3 バケットにコピーして、そのデータをリファレンスストアにインポートします。

// リファレンスストアを作成します
$ aws omics create-reference-store --name "Reference Store"

// リファレンスデータをデータストアにインポートします
$ aws s3 cp s3://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta,name=hg38 s3://channy-omics
$ aws omics start-reference-import-job --sources sourceFile=s3://channy-omics/Homo_sapiens_assembly38.fasta,name=hg38 --reference-store-id 123456789 --role-arn arn:aws:iam::01234567890:role/OmicsImportRole

結果はコンソールでも確認できます。

これで、シーケンスストアを作成できます。シーケンスストアは S3 バケットに似ています。シーケンスストア内の各オブジェクトは「リードセット」と呼ばれます。リードセットは、次の一連のゲノミクスファイルタイプを抽象化したものです。

FASTQ – シーケンサーからのベース (シーケンスレター) に関する情報と、対応する品質情報を格納するテキストベースのファイル形式。
BAM – raw read を圧縮したバイナリバージョンと、リファレンスゲノムへのマッピング。
CRAM – BAM に似ていますが、圧縮に役立てるためにリファレンスゲノム情報を使用します。

Amazon Omics では、インポートするリードセットに対してドメイン固有のメタデータを指定できます。これらは、リードセットのインポートジョブの開始時に検索でき、定義されます。

例として、2,500 人を超える個人からの 4,000 億超のデータポイントについての 8,000 万超のヒトの遺伝子バリアントの非常に詳細なカタログである 1000 Genomes Project を使用します。シーケンスストアを作成して、そこにゲノム配列ファイルをインポートしてみましょう。

// シーケンスストアを作成します 
$ aws omics create-sequence-store --name "MySequenceStore"

// リファレンスデータをデータストアにインポートします
$ aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_1.filt.fastq.gz s3://channy-omics
$ aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_2.filt.fastq.gz s3://channy-omics

$ aws omics start-read-set-import-job --cli-input-json ‘
{
    "sourceFiles":
    {
        "source1": "s3://channy-omics/SRR233106_1.filt.fastq.gz",
        "source2": "s3://channy-omics/SRR233106_2.filt.fastq.gz"

    },
    "sourceFileType": "FASTQ",
    "subjectId": "mySubject2",
    "sampleId": "mySample2",
    "referenceArn": "arn:aws:omics:us-east-1:123456789012:referenceStore/123467890",
    "name": "HG00100"
}’

結果はコンソールでもう一度確認できます。

分析の変革
突然変異に関するバリアントデータ、ある位置でシーケンサーが読み取る内容と既知のリファレンスデータやアノテーションデータとの差異、ゲノム内の位置またはバリアントに関する既知の情報 (病気を引き起こす可能性があるかどうかなど) を保存できます。

バリアントストアは、コールされたバリアントがあるバリアントコールフォーマットファイル (VCF) と、ゲノム内のあらゆる位置をカバーするレコードを含む gVCF 入力の両方をサポートします。アノテーションストアは、General Feature Format (GFF3)、Tab-Separated Values (TSV)、または VCF ファイルのいずれかをサポートします。アノテーションストアは、インポート中にバリアントストアと同じ座標系にマッピングできます。

データをインポートすると、次のようなクエリを実行して、ヒト 1 番染色体で最も一般的なタイプの遺伝的変異である一塩基バリアント (SNV) を検索できます。

SELECT
    sampleid,
    contigname,
    start,
    referenceallele,
    alternatealleles
FROM "myvariantstore"."myvariantstore"
WHERE
    contigname = 'chr1'
    and cardinality(alternatealleles) = 1
    and length(alternatealleles[1]) = 1
    and length(referenceallele) = 1
LIMIT 10

このクエリの出力を確認できます。

#	sampleid	contigname	start	referenceallele	alternatealleles
1	NA20858	chr1	10096	T	[A]
2	NA19347	chr1	10096	T	[A]
3	NA19735	chr1	10096	T	[A]
4	NA20827	chr1	10102	T	[A]
5	HG04132	chr1	10102	T	[A]
6	HG01961	chr1	10102	T	[A]
7	HG02314	chr1	10102	T	[A]
8	HG02837	chr1	10102	T	[A]
9	HG01111	chr1	10102	T	[A]
10	NA19205	chr1	10108	A	[T]

Amazon Athena などの既存の分析エンジンと統合することで、これらのデータを表示、管理、クエリできます。これらのクエリ結果を使用して、Amazon SageMaker で ML モデルをトレーニングできます。

バイオインフォマティクスワークフロー
Amazon Omics では、バリアントコールや遺伝子発現などのバイオインフォマティクスワークフローや分析を AWS で実行できます。これらのコンピューティングワークロードは、複数のコンピューティングタスクとその入出力の依存関係を指定するドメイン固有の言語である Workflow Description Language (WDL) や Nextflow などのワークフロー言語を使用して定義されます。

ワークフローは、いくつかの簡単な CLI コマンドを使用して定義および実行できます。例として、次の WDL コードを使用して main.wdl ファイルを作成し、ファイルのコピーを作成する 1 つのタスクを含む簡単な WDL ワークフローを作成します。

version 1.0
workflow Test {
	input {
		File input_file
	}
	call FileCopy {
		input:
			input_file = input_file,
	}
	output {
		File output_file = FileCopy.output_file
	}
}
task FileCopy {
	input {
		File input_file
	}
	command {
		echo "copying ~{input_file}" >&2
		cat ~{input_file} > output
	}
	output {
		File output_file = "output"
	}
}

その後、ワークフローを圧縮し、AWS CLI を使用して Amazon Omics でワークフローを作成します。

$ zip my-wdl-workflow-zip main.wdl
$ aws omics create-workflow \
    --name MyWDLWorkflow \
    --description "My WDL Workflow" \
    --definition-zip file://my-wdl-workflow.zip \
    --parameter-template '{"input_file": "input test file to copy"}'

先ほど作成したワークフローを実行するために、次のコマンドを使用できます。

aws omics start-run \
  --workflow-id // id of the workflow we just created  \
  --role-arn // arn of the IAM role to run the workflow with  \
  --parameters '{"input_file": "s3://bucket/path/to/file"}' \
  --output-uri s3://bucket/path/to/results

ワークフローが完了すると、s3://bucket/path/to/results にあるこれらの結果を Omics バリアントストアでのダウンストリーム分析に使用できます。

タスクと定義済みのコンピューティング仕様を含むワークフローの 1 回の呼び出しである 1 回の実行を行うことができます。個別に実行すると、定義した入力データに基づいて処理が行われ、出力が生成されます。実行には優先順位を関連付けることもできます。これにより、特定の実行が、送信された他の実行や同時実行よりも優先的に実行されます。例えば、優先度の高い実行を、優先度の低い実行よりも先に実行するように指定できます。

任意で実行グループを使用することもできます。実行グループとは、実行ごとに使用されるコンピューティングリソースを制限するのに役立てるために、最大 vCPU と最大期間の実行を設定できる実行のグループです。これは、さまざまなデータで実行するためにさまざまなワークフローにアクセスする必要がある可能性のあるユーザーをパーティショニングするのに役立ちます。また、ユーザーを特定の実行グループに分離することで、予算管理/リソースの公平性を確保するメカニズムとしても使用できます。

これまで見てきたように、Amazon Omics は、数回クリックするだけで操作でき、シンプルなコマンドで実行できるマネージドサービスと、ヒトゲノムサンプルなどの大規模なオミクスデータを分析するための API を提供するため、数週間ではなく数時間で、このデータから有意義なインサイトを導き出すことができます。また、Amazon SageMaker で使用できるチュートリアル SageMaker ノートブックも多数用意されており、これは使用を開始するのに役立ちます。

データセキュリティに関しては、Amazon Omics は、カスタマーマネージド暗号化キーと HIPAA 適格であることにより、お客様のデータが安全に維持され、患者のプライバシーが保護されるようにするのをサポートします。

お客様とパートナーの声
ヘルスケアおよびライフサイエンス業界のお客様とパートナーから、Amazon Omics を使用して科学的なインサイトを加速させている方法を伺いました。

Children’s Hospital of Philadelphia (CHOP) は、小児科を専門とする米国で最も古い病院であり、優れた患者の治療と革新的な研究を統合して、小児のための医療の進歩に注力しています。CHOP Research Institute がデータとテクノロジーを活用して小児の健康に関する困難な問題を解決する道を切り開いていく中で、AWS は長年にわたって同組織と協力してきました。

「Children’s Hospital of Philadelphia では、最も革新的な研究に基づいて、可能な限り最高の治療を提供するためには、患者の全体像を把握することが重要であることを認識しています。これを達成するためには、複数の臨床モダリティを組み合わせることが基本となります。Amazon Omics を利用することで、患者の健康に関する理解を、患者の DNA にまで広げることができます」– Children’s Hospital of Philadelphia、アソシエイトバイスプレジデント兼最高研究情報責任者、Jeff Pennington 氏

G42 Healthcare は、データと新しいテクノロジーを使用して予防医療をパーソナライズする、AI を活用した医療を可能にしています。

「Amazon Omics を利用することで、G42 は、世界をリードするデータガバナンスを備えた状態で、競争力が高くデプロイ可能なエンドツーエンドのサービスを加速できます。当社では、AWS でグローバルにホストされている広範なオミクスデータ管理およびバイオインフォマティクスソリューションを活用して、お客様が簡単に利用できるようにしています。AWS とのコラボレーションはデータにとどまりません。それは、価値に関するものなのです」– G42 Healthcare、CEO、Ashish Koshi 氏

C2i Genomics は、超高感度の全ゲノムがん検出を活用して、医療のパーソナライゼーション、がん治療コストの削減、医薬品開発の加速を実現するために、研究者、医師、患者が連携できるようにします。

「C2i Genomics では、大規模でカスタマイズ可能なゲノムパイプラインを実行するためのクラウドベースのコンピューティングソリューションを提供することで、データサイエンティストをサポートします。これにより、データサイエンティストはメソッド開発と臨床パフォーマンスに注力できるようになり、会社のエンジニアリングチームはワークロードのオペレーション、セキュリティ、プライバシーの側面を担当します。Amazon Omics は、研究者が自らの分野のツールや言語を使用することを可能にするとともに、コストやリソースの割り当てを考慮しながら、エンジニアリングのメンテナンスの労力を大幅に削減します。その結果、新機能やアルゴリズムの改善の市場投入までの時間と NRE コストが削減されます」– C2i Genomics、エンジニアリング担当 VP、Ury Alon 氏

AWS パートナーと協力して、raw シーケンスデータをインサイトに変換できるようにするスケーラブルなマルチモーダルソリューションを構築できることに高揚感を覚えています。

Lifebit は、複雑で機密性の高い生物医学データセットを持つ組織向けのエンタープライズデータプラットフォームを構築し、ライフサイエンスセクター全体の顧客が機密性の高い生物医学データの使用方法を変革できるようにしています。

「Lifebit では、世界の生物医学データを結び付けて新たな治療上のインサイトを得られるようにすることを使命としています。当社のお客様は、紐付けられたゲノムデータ、マルチオミクスデータ、および臨床データの膨大なコホートを扱っており、これらのデータ量は急速に拡大しています。Amazon Omics を利用することで、このような大規模データ向けに最適化された分析とストレージにアクセスできるようになるため、よりスケーラブルなバイオインフォマティクスソリューションを提供できるようになります。データのギガベースあたりのコストが大幅に削減され、基本的にコールドストレージ料金でホットストレージのパフォーマンスを実現できるため、当社のお客様は、大規模な生物医学データからインサイトを生成する際にコストが障壁とならないようにできます」– Lifebit、最高事業開発責任者、Thorben Seeger 氏

Amazon Omics のお客様ページでは、お客様やパートナーのさらに多くの声を記載しています。

今すぐご利用いただけます
Amazon Omics は、米国東部 (バージニア北部)、米国西部 (オレゴン)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (フランクフルト)、およびアジアパシフィック (シンガポール) リージョンでご利用いただけるようになりました。

詳細については、Amazon Omics ページ、「Amazon Omics ユーザーガイド」、Genomics on AWS、Healthcare & Life Sciences on AWS を参照してください。ぜひお試しいただき、AWS ゲノミクスチームまでお問い合わせください。また、通常の AWS サポートの連絡先を通じてフィードバックをお寄せください。

– Channy

原文はこちらです。

Amazon Web Services ブログ

Amazon Omics のご紹介 – ゲノムデータおよび生物学的データを大規模に保存、クエリ、分析するための専用サービス

お役立ちリンク

フォローお願いいたします

学ぶ

リソース

デベロッパー

ヘルプ