AWS HealthOmics に関するよくある質問

全般

AWS HealthOmics は、ヘルスケアおよびライフサイエンス組織およびソフトウェアパートナーを支援する新たな専用サービスです。ゲノム、トランスクリプトーム、およびその他のオミクスデータを保存、クエリ、分析し、そのデータから得られたインサイトを活用することで、健康を促進します。このサービスは、大規模な分析や共同研究をサポートしています。

AWS HealthOmics は、オミクスデータの準備や分析に用いるスケーラブルなワークフローと統合ツールを提供します。また、基盤となるインフラストラクチャを自動的にプロビジョニングおよびスケールするため、研究やイノベーションに費やす時間を増やすことができます。 AWS HealthOmics は、大規模な分析や共同研究をサポートしています。

AWS HealthOmics は Amazon HealthOmics のプライベートおよび Ready2Run ワークフローを使用して、Amazon Simple Storage Service (S3) または Amazon HealthOmics ストレージからデータを直接処理できます。未加工のゲノム配列ファイル、バリアント呼び出しフォーマットファイル、アノテーション付けされたデータセットなどのデータを Amazon S3 から、バイオインフォマティクスに準拠した AWS HealthOmics ストレージおよび分析ストアにインポートできます。AWS Lake Formation を使用して AWS HealthOmics のバリアントおよびアノテーションストアへのアクセスを制御し、Amazon Athena を使用して、Amazon HealthLake からの医療記録など、他の形式のデータとの照会および結合を簡単に行うことができます。Amazon Athena を使用すれば、データのクエリが容易になります。また、Amazon HealthLake に保存された医療記録など、他の形式のデータと組み合わせることも簡単です。さらに、変換されたデータを Amazon QuickSight で使用すると、高度な分析が可能になります。Amazon SageMaker を使用することで、新たな機械学習アルゴリズムを構築およびトレーニングしたり、マルチオミクスおよびマルチモーダルデータにデプロイしたりできます。最後に、Amazon EventBridge を使用して、イベント駆動型アーキテクチャの一部としてイベントを公開することもできます。

Amazon Omics には、未加工の生体データ用と、バリアントおよび注釈データ用の 2 種類のデータストアがあります。 AWS HealthOmics ストレージでは、FASTA 形式のリファレンスゲノムや、gzip 形式で圧縮された FASTQ、BAM、CRAM 形式の raw シーケンスファイルをインポートできます。 AWS HealthOmics 分析ストアでは、バリアントデータ用の (g)VCF 形式ファイルと、ゲノムアノテーション用の VCF、GFF、TSV/CSV 形式ファイルをインポートできます。 AWS HealthOmics ワークフローは、Amazon Omics ストレージまたは Amazon S3 から、定義されたワークフロー定義とツールによってサポートされているデータを読み取ることができます。

AWS HealthOmics ワークフローは、WDL 1.1 の仕様または Nextflow 22.04.0 DSL2 に準拠したワークフロー定義をサポートします。現在、ワークフローによって参照されるツールは、OCI に準拠したコンテナにカプセル化され、Amazon Elastic Container Registry (ECR) のプライベートレジストリに保存される必要があります。ワークフロー定義は、特定の最終出力を定義しなければならず、中間結果はワークフローの実行が完了した時点で破棄されます。ワークフローの実行およびタスクのキャッシュは、現時点ではサポートされていません。

プライベートワークフローを使用すると、最も一般的に使用されている 2 つのワークフロー言語である WDL と Nextflow で記述された独自のバイオインフォマティクススクリプトを使用できます。これらのプライベートワークフローは「ラン」と呼ばれる 1 回の実行のみで動作します。プライベートワークフローの場合、料金はリクエストした分のみ発生します。Omics インスタンスタイプと実行ストレージごとに個別に請求されます。ワークフロー内のすべてのタスクは、定義されたリソースに最適なインスタンスにマッピングされます。

Ready2Run ワークフローは、Sentieon, Inc、NVIDIA、Element Biosciences といった業界をリードするサードパーティソフトウェア企業が、Broad Institute の GATK ベストプラクティスワークフローやタンパク質構造予測の AlphaFold といった一般的なオープンソースのパイプラインとともに設計した構築済みワークフローです。Ready2Run ワークフローを使用するだけで、Germline や Broad Institute の GATK-8P などの最も一般的に使用されるワークフローでデータを処理できます。Ready2Run のワークフローは、実行ごとにあらかじめ決められた料金が発生します。つまり、すべてのワークフローで同じ料金が請求されます。

プライバシーとセキュリティ

AWS HealthOmics は HIPAA の対象です。属性ベースのアクセス制御を使用すると、AWS HealthOmics のリソースにアクセス可能なユーザーを定義できます。また、すべての永続的ストレージは、お客様が管理するキーに対応しています。行と列のアクセス許可は、AWS HealthOmics 分析ストアでも利用できます。 AWS HealthOmics API は、AWS CloudTrail および Amazon CloudWatch Logs と統合されているため、詳細なデータの出所およびアクセスの監査証跡を生成できます。

AWS HealthOmics は HIPAA 対応サービスです。保護医療情報 (PHI) を AWS に保存する場合は、BAA が必要になります。AWS Artifact を使用すると、オンラインで迅速に BAA を締結できます。