この AWS ソリューション実装では、どのようなことが可能ですか?
Amazon SageMaker を使用したゲノミクスの 3 次分析と機械学習ソリューションは、AWS マネージドサービスを使用してゲノムデータセットに機械学習モデルを構築するために使用できる AWS クラウドにプラットフォームを作成します。当社では、3 次分析をゲノム変異の解釈とそれらに意味を割り当てることであると定義しています。このソリューションは、AWS でのゲノミクス機械学習のための幅広いプラットフォームを提供し、このプラットフォームを使用して解決できる科学的に意味のある問題の例として変異分類を使用します。当該例では、ゲノム変異を調べる際に、競合する臨床定義の特定の課題を解決します。当社の例は、次の Kaggle チャレンジに基づいています。ClinVar で注釈が付けられた変異分類が競合するかどうかを予測するモデルを作成します。競合する変異分類の存在を予測できるモデルを利用することで、研究者は、そのような競合を探すために費さなければならない貴重な時間を節約できます。
このソリューションでは、1) ゲノミクス機械学習トレーニングデータセットの準備を自動化し、2) ゲノミクス機械学習モデルトレーニングとデプロイパイプラインを開発し、3) テストデータを使用して予測を生成し、モデルパフォーマンスを評価する方法を示します。これらの手順は、特定のユースケースに合わせてユーザーが繰り返したり編集したりできます。
AWS ソリューション実装の概要
下の図は、このソリューションの実装ガイドと付属の AWS CloudFormation テンプレートを使用して、自動的にデプロイできるアーキテクチャを表しています。

Amazon SageMaker を使用したゲノミクスの 3 次分析と機械学習のソリューションアーキテクチャ
AWS CloudFormation テンプレートはこのソリューションをインストールするため、AWS アカウントに setup スタックを含む 4 つの CloudFormation スタックを作成します。他のスタックには共通のソリューションリソースとアーティファクトを含むランディングゾーン (zone) スタック、ソリューションの継続的インテグレーションと継続的デリバリー (CI/CD) パイプラインを定義するデプロイパイプライン (pipe) スタック、ETL スクリプトを提供するコードベース (code) スタック、ジョブ、クローラー、データカタログ、およびノートブックリソースなどがあります。
このソリューションの setup スタックは setup.sh スクリプトを含む AWS CodeBuild プロジェクトを作成します。このスクリプトは残りの CloudFormation スタックを作成し、AWS CodeCommit pipe リポジトリと code リポジトリの両方にコードを提供します。
ランディングゾーン (zone) スタックは、CodeCommit pipe リポジトリを作成します。ランディングゾーン (zone) スタックがセットアップを完了すると、setup.sh スクリプトがソースコードを CodeCommit pipe リポジトリにプッシュします。
AWS CodePipeline code パイプラインはコードベース (code) CloudFormation スタックをデプロイします。アカウントにデプロイされたリソースに、オブジェクトアクセスログ、ビルドアーティファクト、データを保存するための Amazon Simple Storage Service (Amazon S3) バケットが含まれます。ほかにもソースコードの CodeCommit リポジトリ、コードアーティファクト (データ処理に使用されるサードパーティーライブラリ) を構築するための AWS CodeBuild プロジェクト、リソースのビルドとデプロイを自動化するための CodePipeline パイプライン、AWS Glue ジョブの例、および Amazon SageMaker Jupyter ノートブックインスタンスがあります。サンプルコードには、ゲノミクスデータを使用して機械学習モデルを迅速に開発し、予測を生成するために必要なリソースが含まれています。
Amazon SageMaker を使用したゲノミクスの 3 次分析と機械学習
バージョン 1.0
最終更新日: 2020 年 8 月
作成者: AWS
見積りデプロイ時間: 30 分