この AWS ソリューション実装では、どのようなことが可能ですか?

AWS Glue と Amazon Athena を使用するゲノミクス 3 次分析とデータレイクソリューションは、大規模な分析のためのゲノムデータを準備するスケーラブルな環境を AWS に作成したり、ゲノムデータレイクに対する双方向性のクエリを実行できます。このソリューションは、IT インフラストラクチャアーキテクト、管理者、データサイエンティスト、ソフトウェアエンジニア、および DevOps プロフェッショナルが、ゲノミクスデータ変換に使用されるライブラリを構築、パッケージ化、およびデプロイするのに役立ちます。また、ゲノミクスデータの準備とカタログ化のためのデータ取り込みパイプラインをプロビジョニングし、ゲノミクスデータレイクに対してインタラクティブなクエリを実行します。

二次分析からのデータ出力は、大規模かつ複雑になる場合があります。たとえば、バリアントコールファイル (VCF) はビッグデータに最適化されたファイル形式 (Parquet など) に変換し、既存のゲノミクスデータセットに組み込む必要があります。ユーザーが必要なデータを見つけて、意味が一貫している定義済みのデータモデル内で操作できるように、データカタログを適切なスキーマとバージョンで更新する必要があります。コホートを構築し、データを集計し、注釈ソースからのデータで結果セットを強化するには、注釈データセットと表現型データを処理、カタログ化し、既存のデータレイクに取り込む必要があります。データガバナンスと詳細なデータアクセスコントロールで、データを保護しながら、研究およびインフォマティクスコミュニティに十分なデータアクセスを提供できます。AWS Glue と Amazon Athena ソリューションを使用するゲノミクス 3 次分析とデータレイクは、このプロセスを簡素化します。

このソリューションは、ゲノミクスデータレイクを提供し、AWS Glue ETL とクローラーを使用してゲノミクスと注釈の取り込みパイプラインを設定し、Amazon Simple Storage Service (Amazon S3) にゲノミクスデータレイクを設定します。このソリューションでは、Amazon Athena を使用してゲノミクスデータレイク上でデータ分析と解釈を行い、Jupyter ノートブック内から薬物反応レポートを作成する方法を示します。

AWS ソリューション実装の概要

下の図は、このソリューションの実装ガイドと付属の AWS CloudFormation テンプレートを使用して、自動的にデプロイできるアーキテクチャを示しています。

AWS Glue と Amazon Athena を使用するゲノミクス 3 次分析とデータレイクの紹介 | アーキテクチャ図
 拡大イメージを見る

AWS Glue と Amazon Athena を使用するゲノミクス 3 次分析とデータレイクのソリューションアーキテクチャ

AWS CloudFormation テンプレートはこのソリューションをインストールするため、AWS アカウントに setup スタックを含む 4 つの CloudFormation スタックを作成します。他のスタックには共通のソリューションリソースとアーティファクトを含むランディングゾーン (zone) スタック、ソリューションの CI/CD パイプラインを定義するデプロイパイプライン (pipe) スタック、ETL スクリプトを提供するコードベース (code) スタック、ジョブ、クローラー、データカタログ、およびノートブックリソースなどがあります。

setup スタックは setup.sh スクリプトを含む AWS CodeBuild プロジェクトを作成します。このスクリプトは残りの CloudFormation スタックを作成し、AWS CodeCommit pipe リポジトリと code リポジトリの両方にコードを提供します。

ランディングゾーン (zone) スタックは、CodeCommit pipe リポジトリを作成します。ランディングゾーン (zone) スタックがセットアップを完了すると、setup.sh スクリプトがソースコードを CodeCommit pipe リポジトリにプッシュします。

デプロイパイプライン (pipe) スタックは CodeCommit code リポジトリ、Amazon CloudWatch イベント、CodePipeline code パイプラインを作成します。デプロイメントパイプライン (pipe) スタックがセットアップを完了すると、setup.sh スクリプトがソースコードを CodeCommit code リポジトリにプッシュします。

CodePipeline (code) パイプラインはコードベース (code) CloudFormation スタックをデプロイします。AWS CodePipeline パイプラインがセットアップを完了すると、アカウントにデプロイされたリソースに、オブジェクトアクセスログ、ビルドアーティファクト、データレイク内のデータを保存するための Amazon Simple Storage Service (Amazon S3) バケットが含まれます。ほかにもソースコードの CodeCommit リポジトリ、コードアーティファクト (データ処理に使用されるサードパーティーライブラリ) を構築するための AWS CodeBuild プロジェクト、リソースのビルドとデプロイを自動化するための AWS CodePipeline パイプライン、AWS Glue ジョブ、クローラー、およびデータカタログの例、Amazon SageMaker Jupyter ノートブックインスタンスがあります。 

AWS Glue と Amazon Athena を使用するゲノミクス 3 次分析とデータレイクの紹介

バージョン 1.0
最終更新日: 2020 年 7 月
著者: AWS

見積りデプロイ時間: 30 分

下のボタンをクリックして、ソリューションの更新を登録してください。

注: RSS 更新を購読するには、使用しているブラウザで RSS プラグインを有効にする必要があります。 

特徴

大規模なゲノミクス分析のために AWS にスケーラブルな環境を提供する

AWS でスケーラブルな環境を作成して、大規模なデータ分析用にゲノムデータを準備し、ゲノミクスデータレイクに対する双方向のクエリを実行できるようにします。

コードとしてのインフラストラクチャのベストプラクティスを活用

コードとしてのインフラストラクチャ (IaC) の原理とベストプラクティスを使用してソリューションを迅速に展開します。

継続的インテグレーションと継続的デリバリーの (CI/CD) の活用

AWS CodeCommit のソースコードリポジトリと AWS CodePipeline を使用して、データ準備ジョブとクローラー、データレイク構成、Jupyter ノートブックの更新を構築およびデプロイします。

ゲノミクスデータ準備パイプラインと Jupyter ノートブックを分析用に変更する

たとえば、新しい AWS Glue ジョブとクローラー、そしてデータ分析を実行する新しい Jupyter ノートブックを追加して、特定のニーズに合わせてソリューションを変更します。変更コントロール管理、ロールバック、監査などを容易にするため、各変更は CI/CD パイプラインによって追跡されます。
アイコンを作成する
自分でソリューションをデプロイする

よくみられるアーキテクチャ上の問題に関して答えを知るため、AWS ソリューション実装のライブラリを閲覧する。

詳細はこちら 
APN パートナーを見つける
APN パートナーを見つける

サービスの開始をサポートする AWS 認定コンサルティングパートナーとテクノロジーパートナーを見つけましょう。

詳細はこちら 
アイコンについて調べる
ソリューションコンサルティングサービスについて調べる

ソリューションをデプロイし、AWS により審査済みのサポートを受けるため、コンサルティングサービスのポートフォリオを閲覧する。

詳細はこちら