Genomics Tertiary Analysis and Machine Learning Using Amazon SageMaker는 AWS Managed Services를 사용하여 유전체 데이터 집합을 기반으로 한 기계 학습 모델을 구축하는 데 활용할 수 있는 참조를 제공합니다. AWS에서는 3차 분석을 유전체 변종을 해석하고 여기에 의미를 부여하는 것으로 정의합니다. 이 솔루션은 AWS에서 유전체 기계 학습을 위한 광범위한 플랫폼을 제공하며, 변종 분류를 이 플랫폼으로 해결할 수 있는 과학적으로 유의한 문제의 예시로 제시합니다. 이 예시에서는 유전체 변종을 검사할 때 임상적 정의가 대립되는 문제를 해결합니다. 예시는 다음과 같은 Kaggle 문제를 기반으로 합니다. ClinVar에 주석으로 달린 변종에 대립되는 분류가 있는지를 예측하는 모델을 만듭니다. 변종에 대립되는 분류가 있는지 예측하는 모델은 연구자들이 이런 대립을 찾느라 사용하는 시간을 절약할 수 있습니다.
이 솔루션은 1) 유전체학 기계 학습 훈련 데이터 세트의 준비를 자동화하고, 2) 유전체학 기계 학습 모델 훈련 및 배포 파이프라인을 개발하고, 3) 예측을 생성하여 테스트 데이터로 모델 성능을 평가하는 방법을 보여줍니다. 이 단계는 각 사용 사례에 따라 사용자가 반복하거나 편집할 수 있습니다.
개요
아래의 다이어그램은 GitHub의 예제 코드를 사용하여 구축할 수 있는 아키텍처를 보여줍니다.

Genomics Tertiary Analysis and Machine Learning Using Amazon SageMaker 아키텍처
이 지침의 setup 스택은 setup.sh 스크립트가 포함된 AWS CodeBuild 프로젝트를 생성합니다. 이 스크립트는 나머지 CloudFormation 스택을 생성하고, AWS CodeCommit pipe 리포지토리와 code 리포지토리에 대한 소스 코드를 제공합니다.
랜딩 존(zone) 스택은 CodeCommit pipe 리포지토리를 생성합니다. 랜딩 존(zone) 스택의 설정이 완료되면 setup.sh 스크립트가 CodeCommit pipe 리포지토리로 소스 코드를 푸시합니다.
AWS CodePipeline code 파이프라인은 코드베이스(code) CloudFormation 스택을 배포합니다. 계정에 배포되는 리소스로는 객체 액세스 로그, 빌드 아티팩트, 데이터를 저장하기 위한 Amazon Simple Storage Service(Amazon S3) 버킷, 소스 코드를 위한 CodeCommit 리포지토리, 코드 아티팩트(예: 데이터 처리에 사용되는 서드 파티 라이브러리) 구축을 위한 AWS CodeBuild 프로젝트, 리소스의 구축 및 배포를 자동화하기 위한 CodePipeline 파이프라인, 예제 AWS Glue 작업, Amazon SageMaker Jupyter 노트북 인스턴스 등이 있습니다. 예제 코드에는 유전체 데이터를 사용하여 기계 학습 모델을 신속히 개발하고 예측을 생성하는 데 필요한 리소스가 포함됩니다.
Genomics Tertiary Analysis and Machine Learning Using Amazon SageMaker
버전 1.0
최종 업데이트 날짜: 2020년 8월
작성자: AWS