この AWS ソリューション実装では、どのようなことが可能ですか?

Amazon SageMaker を使用したゲノミクスの 3 次分析と機械学習ソリューションは、AWS マネージドサービスを使用してゲノムデータセットに機械学習モデルを構築するために使用できる AWS クラウドにプラットフォームを作成します。当社では、3 次分析をゲノム変異の解釈とそれらに意味を割り当てることであると定義しています。このソリューションは、AWS でのゲノミクス機械学習のための幅広いプラットフォームを提供し、このプラットフォームを使用して解決できる科学的に意味のある問題の例として変異分類を使用します。当該例では、ゲノム変異を調べる際に、競合する臨床定義の特定の課題を解決します。当社の例は、次の Kaggle チャレンジに基づいています。ClinVar で注釈が付けられた変異分類が競合するかどうかを予測するモデルを作成します。競合する変異分類の存在を予測できるモデルを利用することで、研究者は、そのような競合を探すために費さなければならない貴重な時間を節約できます。

このソリューションでは、1) ゲノミクス機械学習トレーニングデータセットの準備を自動化し、2) ゲノミクス機械学習モデルトレーニングとデプロイパイプラインを開発し、3) テストデータを使用して予測を生成し、モデルパフォーマンスを評価する方法を示します。これらの手順は、特定のユースケースに合わせてユーザーが繰り返したり編集したりできます。

AWS ソリューション実装の概要

下の図は、このソリューションの実装ガイドと付属の AWS CloudFormation テンプレートを使用して、自動的にデプロイできるアーキテクチャを表しています。

Amazon SageMaker を使用したゲノミクスの 3 次分析と機械学習 | アーキテクチャ図
 拡大イメージを見る

Amazon SageMaker を使用したゲノミクスの 3 次分析と機械学習のソリューションアーキテクチャ

AWS CloudFormation テンプレートはこのソリューションをインストールするため、AWS アカウントに setup スタックを含む 4 つの CloudFormation スタックを作成します。他のスタックには共通のソリューションリソースとアーティファクトを含むランディングゾーン (zone) スタック、ソリューションの継続的インテグレーション継続的デリバリー (CI/CD) パイプラインを定義するデプロイパイプライン (pipe) スタック、ETL スクリプトを提供するコードベース (code) スタック、ジョブ、クローラー、データカタログ、およびノートブックリソースなどがあります。

このソリューションの setup スタックは setup.sh スクリプトを含む AWS CodeBuild プロジェクトを作成します。このスクリプトは残りの CloudFormation スタックを作成し、AWS CodeCommit pipe リポジトリと code リポジトリの両方にコードを提供します。

ランディングゾーン (zone) スタックは、CodeCommit pipe リポジトリを作成します。ランディングゾーン (zone) スタックがセットアップを完了すると、setup.sh スクリプトがソースコードを CodeCommit pipe リポジトリにプッシュします。

AWS CodePipeline code パイプラインはコードベース (code) CloudFormation スタックをデプロイします。アカウントにデプロイされたリソースに、オブジェクトアクセスログ、ビルドアーティファクト、データを保存するための Amazon Simple Storage Service (Amazon S3) バケットが含まれます。ほかにもソースコードの CodeCommit リポジトリ、コードアーティファクト (データ処理に使用されるサードパーティーライブラリ) を構築するための AWS CodeBuild プロジェクト、リソースのビルドとデプロイを自動化するための CodePipeline パイプライン、AWS Glue ジョブの例、および Amazon SageMaker Jupyter ノートブックインスタンスがあります。サンプルコードには、ゲノミクスデータを使用して機械学習モデルを迅速に開発し、予測を生成するために必要なリソースが含まれています。

Amazon SageMaker を使用したゲノミクスの 3 次分析と機械学習

バージョン 1.0
最終更新日: 2020 年 8 月
作成者: AWS

見積りデプロイ時間: 30 分

下のボタンをクリックして、ソリューションの更新を登録してください。

注: RSS 更新を購読するには、使用しているブラウザで RSS プラグインを有効にする必要があります。 

このソリューション実装はお役に立ちましたか?
フィードバックを送る 

特徴

ゲノミクス分析とリサーチプロジェクトを実行するために AWS にスケーラブルな環境を提供

AWS でスケーラブルな環境を作成し、AWS マネージドサービスを使用してゲノムデータセットで機械学習モデルを構築します。このソリューションは、AWS でのゲノミクス機械学習のための幅広いプラットフォームを提供し、このプラットフォームを使用して解決できる科学的に意味のある問題の例として変異分類を使用します。

コードとしてのインフラストラクチャのベストプラクティスを活用

コードとしてのインフラストラクチャ (IaC) の原理とベストプラクティスを使用してソリューションを迅速に展開します。

継続的インテグレーションと継続的デリバリーの (CI/CD) の活用

AWS CodeCommit ソースコードリポジトリ、AWS CodeBuild プロジェクト、および AWS CodePipeline を使用して、ゲノミクス機械学習モデル生成パイプラインを構築およびデプロイし、Jupyter ノートブックをデプロイし、抽出、変換、およびロード (ETL) ジョブを作成して新しいトレーニングデータセットを生成します。

独自のゲノミクス分析とリサーチプロジェクト用に変更

独自のトレーニングデータセットを追加して、特定のニーズに合うようにソリューションを変更します。変更コントロール管理、ロールバック、監査などを容易にするため、各変更は CI/CD パイプラインによって追跡されます。
アイコンを作成する
自分でソリューションをデプロイする

よくみられるアーキテクチャ上の問題に関して答えを知るため、AWS ソリューション実装のライブラリを閲覧する。

詳細はこちら 
APN パートナーを見つける
APN パートナーを見つける

サービスの開始をサポートする AWS 認定コンサルティングパートナーとテクノロジーパートナーを見つけましょう。

詳細はこちら 
アイコンについて調べる
ソリューションコンサルティングサービスについて調べる

ソリューションをデプロイし、AWS により審査済みのサポートを受けるため、コンサルティングサービスのポートフォリオを閲覧する。

詳細はこちら