[SEO 小見出し]
重要: このガイダンスでは AWS CodeCommit を利用する必要がありますが、同サービスは新規のお客様にはご利用いただけなくなりました。AWS CodeCommit の既存のお客様は、これまでどおり、このガイダンスを引き続き利用およびデプロイできます。
このガイダンスは、本番グレードのバイオインフォマティクスワークフローを大規模に構築および実行する方法を示します。自動化、ワークフロー分析、ストレージ、運用とコストのオブザーバビリティに関する AWS のサービスを使用すると、DevOps のベストプラクティスに従ってバイオインフォマティクスワークフローのライフサイクルを管理できます。このアーキテクチャを独自のインフラストラクチャの基盤として使用し、必要に応じて特定の要素を更新して環境と統合し、ニーズを満たすことができます。
ご注意: [免責事項]
アーキテクチャ図
[アーキテクチャ図の説明]
ステップ 1
AWS DataSync を使用してシーケンスデータを Amazon Simple Storage Service (Amazon S3) に転送します。データが FASTQ 形式の場合は、AWS HealthOmics (Amazon Omics の後継) のシーケンスストアにインポートしてコストを削減できます。
ステップ 2
HealthOmics は、ワークフロー記述言語 (WDL)、Nextflow、共通ワークフロー言語 (CWL) などの言語でバイオインフォマティクスワークフローを実行し、生データを分析します。これらのワークフローは、プライベートまたは Ready2Run (HealthOmics がホスト) として構築できます。
ワークフロー内で実行されるツールは、Amazon Elastic Container Registry (Amazon ECR) 内に Docker イメージとして保存されます。ワークフロー出力は Amazon S3 にアップロードされます。
ステップ 3
HealthOmics は、トラブルシューティングとモニタリングのために、ワークフローエンジンログ、タスクログ、およびワークフロー実行ログを Amazon CloudWatch に公開します。
ステップ 4
HealthOmics は Amazon EventBridge を使用してイベントを発行します。これにより、AWS Lambda 関数を使用してより多くのバイオインフォマティクスワークフローを起動したり、Amazon Simple Notification Service (Amazon SNS) を使用してワークフローの失敗についてユーザーやグループに通知したりするなど、ダウンストリームのアクションを自動化できます。
ステップ 5
HealthOmics ワークフローの有用なメタデータ (ワークフロー実行 ID、タグ、サンプル ID、ワークフロー出力ファイルの場所など) は Amazon DynamoDB テーブルで追跡できます。AWS Glue クローラーがこのデータを AWS Glue データカタログに取り込み、Amazon Athena を使用してクエリを実行できます。
ステップ 6
ワークフロー開発者とバイオインフォマティシャンは、AWS CodeCommit による継続的インテグレーションと継続的デリバリーを使用して、新しいワークフローと既存のワークフローを繰り返し、バージョン管理を維持できます。AWS CodePipeline を使用して AWS CodeBuild ジョブを呼び出して、HealthOmics での新しいワークフローの作成を自動化することができます。
ステップ 7
AWS コストと使用状況レポート (AWS CUR) は、コストモニタリングを容易にします。このサービスは、レポートを作成して Amazon S3 バケットにアップロードするように設定できます。AWS Glue クローラーは、このデータを AWS Glue データカタログに取り込むように設定されています。Amazon Athena を使用してクエリを実行すると、コスト関連のインサイトが得られます。
Well-Architected Pillars
AWS Well-Architected フレームワークは、クラウドでシステムを構築する際に行う決定の長所と短所を理解するのに役立ちます。フレームワークの 6 つの柱により、信頼性が高く、安全かつ効率的で、費用対効果が高く、持続可能なシステムを設計および運用するためのアーキテクチャのベストプラクティスを学ぶことができます。AWS マネジメントコンソールで無料で提供されている AWS Well-Architected Tool を使用し、各柱の一連の質問に回答することで、これらのベストプラクティスに照らしてワークロードを確認できます。
上記のアーキテクチャ図は、Well-Architected のベストプラクティスを念頭に置いて作成されたソリューションの例です。完全に Well-Architected であるためには、可能な限り多くの Well-Architected ベストプラクティスに従う必要があります。
-
運用上の優秀性
このガイダンスでは、AWS CodeCommit、AWS CodeBuild、AWS CodePipeline を使用してバージョンコントロールを作成し、バイオインフォマティクスワークフローのソースコードのビルドとデプロイを自動化します。さらに、DynamoDB では HealthOmics 出力ファイルを追跡したり、メタデータを実行したりできます。このガイダンスでは DevOps のベストプラクティスを使用してワークフローコードを管理し、ワークフローの実行メタデータを可視化できるため、段階的に変更を加えて正確な結果を得ることができます。ワークフロー実行メタデータを追跡することで、関連するワークフロー実行ステータスや出力ファイルを簡単に見つけて、ダウンストリームのレポートや科学的分析を行うことができます。
-
セキュリティ
このガイダンスでは、AWS Key Management Service (AWS KMS) を使用した保存時の暗号化と、DataSync を使用したすべてのネットワークトラフィックの転送中の暗号化について説明します。さらに、AWS Identity and Access Management (IAM) では、潜在的に機密性の高いデータに対するきめ細かなアクセス制御が可能なため、権限のあるユーザーのみが特定のアクションを実行してデータを処理および分析できます。
-
信頼性
このガイダンスでは、HealthOmics を使用して計算量の多いバイオインフォマティクスワークフローを大規模に調整できます。このサービスには、偶発的なオーバープロビジョニングを防ぐために、仮想 CPU の数などの特定のサービスクォータがあります。さらに、Amazon S3 と DynamoDB は組み込みのバックアップにより高可用性を実現します。また、このガイダンスでは EventBridge を使用して障害などのイベントをキャプチャします。Amazon SNS は、適切なアクションを取れるように応答してリアルタイムで通知します。Amazon CloudWatch を使用すると、イベントをすばやく調査できます。詳細なログにより、HealthOmics のワークフローと基盤となるツールを可視化できます。
-
パフォーマンス効率
このガイダンスにより、特定のタスクに対して異なる CPU とメモリ構成でワークフローを同時に実行できます。必要な CPU、メモリ、ストレージを指定してリソースを要求すると、HealthOmics が適切なインフラストラクチャをプロビジョニングします。これにより、適切なリソースを使用してビジネスニーズに基づいて規模を拡大できます。
-
コストの最適化
このガイダンスでは HealthOmics シーケンスストアを使用します。これにより、ペタバイト規模のゲノミクスデータファイルをギガベースあたりのコストが低く効率よく保存および共有できるため、Amazon S3 よりもさらにコスト削減が可能になります。さらに、AWS CUR を使用すると、AWS のコストと使用状況に関する最も詳細な情報にアクセスしたり、最適化すべき領域を特定したり、プロジェクト、部門、ユーザーなどの属性に基づいてビジネスの傾向を把握したりできます。
-
持続可能性
このガイダンスでは、マネージドサービスとサーバーレスサービスを使用しているため、独自のインフラストラクチャのプロビジョニングや管理が不要になり、プロジェクトによる環境への影響を最小限に抑えることができます。HealthOmics は、ワークフローの実行をリクエストした場合にのみリソースをプロビジョニングし、完了するとリソースを破棄します。同様に、Lambda では、独自のサーバーをプロビジョニングしなくても、小さなタスクを関数として実行できます。
実装リソース
AWS アカウント内で実験および使用するための詳細なガイドが提供されています。ガイダンス構築の各段階 (デプロイ、使用、およびクリーンアップを含む) は、デプロイに向けて準備するために詳細に検討されています。
サンプルコードは出発点です。これは業界で検証済みであり、規範的ではありますが決定的なものではなく、内部を知ることができ、開始に役立ちます。
関連コンテンツ
AWS HealthOmics と Amazon EventBridge を使用したバイオインフォマティクスワークフローのイベント駆動型アーキテクチャの設計
Laboratory Data Mesh on AWS のためのガイダンス
AWS HealthOmics による配列データの移行と保存に関するガイダンス
AWS Health および機械学習サービスによるマルチモーダルデータ分析
AWS HealthOmics でゲノムワークフローとデータを保護しましょう
免責事項
サンプルコード、ソフトウェアライブラリ、コマンドラインツール、概念の実証、テンプレート、またはその他の関連技術 (私たちの担当者から提供される前述のものを含む) は、AWS カスタマーアグリーメント、またはお客様と AWS との間の関連文書契約 (いずれか該当する方) に基づき、AWS コンテンツとしてお客様に提供されるものです。お客様は、この AWS コンテンツを、お客様の本番アカウント、または本番データもしくはその他の重要なデータで使用すべきではありません。お客様は、サンプルコードなどの AWS コンテンツを、お客様固有の品質管理手法および基準に基づいて、本番グレードでの使用に適したテスト、セキュリティ確保、および最適化を行う責任を負います。AWS コンテンツのデプロイには、Amazon EC2 インスタンスの実行や Amazon S3 ストレージの使用など、AWS の課金対象リソースを作成または使用するための AWS 料金が発生する場合があります。
本ガイダンスにおける第三者のサービスまたは組織への言及は、Amazon または AWS と第三者との間の承認、後援、または提携を意味するものではありません。AWS からのガイダンスは技術的な出発点であり、アーキテクチャをデプロイするときにサードパーティのサービスとの統合をカスタマイズできます。