Amazon SageMaker を使用したゲノミクスの 3 次分析と機械学習

Amazon SageMaker を使用したゲノミクスの 3 次分析と機械学習は、AWS マネージドサービスを使用してゲノムデータセットに機械学習モデルを構築するために使用できるリファレンスを提供します。当社では、3 次分析をゲノム変異の解釈とそれらに意味を割り当てることであると定義しています。このソリューションは、AWS でのゲノミクス機械学習のための幅広いプラットフォームを提供し、このプラットフォームを使用して解決できる科学的に意味のある問題の例として変異分類を使用します。当該例では、ゲノム変異を調べる際に、競合する臨床定義の特定の課題を解決します。当社の例は、次の Kaggle チャレンジに基づいています。ClinVar で注釈が付けられた変異分類が競合するかどうかを予測するモデルを作成します。競合する変異分類の存在を予測できるモデルを利用することで、研究者は、そのような競合を探すために費さなければならない貴重な時間を節約できます。

このソリューションでは、1) ゲノミクス機械学習トレーニングデータセットの準備を自動化し、2) ゲノミクス機械学習モデルトレーニングとデプロイパイプラインを開発し、3) テストデータを使用して予測を生成し、モデルパフォーマンスを評価する方法を示します。これらの手順は、特定のユースケースに合わせてユーザーが繰り返したり編集したりできます。

概要

下の図表は、GitHub にあるサンプルコードを使って構築できるアーキテクチャを示しています。

Amazon SageMaker を使用したゲノミクスの 3 次分析と機械学習のアーキテクチャ

このガイダンスの setup スタックは setup.sh スクリプトを含む AWS CodeBuild プロジェクトを作成します。このスクリプトは残りの CloudFormation スタックを作成し、AWS CodeCommit pipe リポジトリと code リポジトリの両方にソースコードを提供します。

ランディングゾーン (zone) スタックは、CodeCommit pipe リポジトリを作成します。ランディングゾーン (zone) スタックがセットアップを完了すると、setup.sh スクリプトがソースコードを CodeCommit pipe リポジトリにプッシュします。

AWS CodePipeline code パイプラインはコードベース (code) CloudFormation スタックをデプロイします。アカウントにデプロイされたリソースに、オブジェクトアクセスログ、ビルドアーティファクト、データを保存するための Amazon Simple Storage Service (Amazon S3) バケットが含まれます。ほかにもソースコードの CodeCommit リポジトリ、コードアーティファクト (データ処理に使用されるサードパーティーライブラリ) を構築するための AWS CodeBuild プロジェクト、リソースのビルドとデプロイを自動化するための CodePipeline パイプライン、AWS Glue ジョブの例、および Amazon SageMaker Jupyter ノートブックインスタンスがあります。サンプルコードには、ゲノミクスデータを使用して機械学習モデルを迅速に開発し、予測を生成するために必要なリソースが含まれています。

Amazon SageMaker を使用したゲノミクスの 3 次分析と機械学習

バージョン 1.0
最終更新日: 2020 年 8 月
作成者: AWS

このソリューション実装はお役に立ちましたか?
フィードバックを送る 

特徴

ゲノミクス分析とリサーチプロジェクトを実行するために AWS にスケーラブルな環境を提供

AWS でスケーラブルな環境を作成し、AWS マネージドサービスを使用してゲノムデータセットで機械学習モデルを構築します。このソリューションは、AWS でのゲノミクス機械学習のための幅広いプラットフォームを提供し、このプラットフォームを使用して解決できる科学的に意味のある問題の例として変異分類を使用します。

継続的インテグレーションと継続的デリバリーの (CI/CD) の活用

AWS CodeCommit ソースコードリポジトリ、AWS CodeBuild プロジェクト、および AWS CodePipeline を使用して、ゲノミクス機械学習モデル生成パイプラインを構築およびデプロイし、Jupyter ノートブックをデプロイし、抽出、変換、ロード (ETL) ジョブを作成して新しいトレーニングデータセットを生成します。

Infrastructure as Code のベストプラクティスを活用

Infrastructure as Code (IaC) の原理とベストプラクティスを使用してガイダンスを迅速に展開します。

独自のゲノミクス分析とリサーチプロジェクト用に変更

独自のトレーニングデータセットを追加して、特定のニーズに合うようにガイダンスを変更します。変更コントロール管理、ロールバック、監査などを容易にするため、各変更は CI/CD パイプラインによって追跡されます。
アイコンを作成する
自分でソリューションをデプロイする

よくみられるアーキテクチャ上の問題に関して答えを知るため、AWS ソリューション実装のライブラリを閲覧する。

詳細 
APN パートナーを見つける