Genomics Tertiary Analysis and Machine Learning Using Amazon SageMaker

Genomics Tertiary Analysis and Machine Learning Using Amazon SageMaker는 AWS Managed Services를 사용하여 유전체 데이터 집합을 기반으로 한 기계 학습 모델을 구축하는 데 활용할 수 있는 참조를 제공합니다. AWS에서는 3차 분석을 유전체 변종을 해석하고 여기에 의미를 부여하는 것으로 정의합니다. 이 솔루션은 AWS에서 유전체 기계 학습을 위한 광범위한 플랫폼을 제공하며, 변종 분류를 이 플랫폼으로 해결할 수 있는 과학적으로 유의한 문제의 예시로 제시합니다. 이 예시에서는 유전체 변종을 검사할 때 임상적 정의가 대립되는 문제를 해결합니다. 예시는 다음과 같은 Kaggle 문제를 기반으로 합니다. ClinVar에 주석으로 달린 변종에 대립되는 분류가 있는지를 예측하는 모델을 만듭니다. 변종에 대립되는 분류가 있는지 예측하는 모델은 연구자들이 이런 대립을 찾느라 사용하는 시간을 절약할 수 있습니다.

이 솔루션은 1) 유전체학 기계 학습 훈련 데이터 세트의 준비를 자동화하고, 2) 유전체학 기계 학습 모델 훈련 및 배포 파이프라인을 개발하고, 3) 예측을 생성하여 테스트 데이터로 모델 성능을 평가하는 방법을 보여줍니다. 이 단계는 각 사용 사례에 따라 사용자가 반복하거나 편집할 수 있습니다.

개요

아래의 다이어그램은 GitHub의 예제 코드를 사용하여 구축할 수 있는 아키텍처를 보여줍니다.

Genomics Tertiary Analysis and Machine Learning Using Amazon SageMaker 아키텍처

이 지침의 setup 스택은 setup.sh 스크립트가 포함된 AWS CodeBuild 프로젝트를 생성합니다. 이 스크립트는 나머지 CloudFormation 스택을 생성하고, AWS CodeCommit pipe 리포지토리와 code 리포지토리에 대한 소스 코드를 제공합니다.

랜딩 존(zone) 스택은 CodeCommit pipe 리포지토리를 생성합니다. 랜딩 존(zone) 스택의 설정이 완료되면 setup.sh 스크립트가 CodeCommit pipe 리포지토리로 소스 코드를 푸시합니다.

AWS CodePipeline code 파이프라인은 코드베이스(code) CloudFormation 스택을 배포합니다. 계정에 배포되는 리소스로는 객체 액세스 로그, 빌드 아티팩트, 데이터를 저장하기 위한 Amazon Simple Storage Service(Amazon S3) 버킷, 소스 코드를 위한 CodeCommit 리포지토리, 코드 아티팩트(예: 데이터 처리에 사용되는 서드 파티 라이브러리) 구축을 위한 AWS CodeBuild 프로젝트, 리소스의 구축 및 배포를 자동화하기 위한 CodePipeline 파이프라인, 예제 AWS Glue 작업, Amazon SageMaker Jupyter 노트북 인스턴스 등이 있습니다. 예제 코드에는 유전체 데이터를 사용하여 기계 학습 모델을 신속히 개발하고 예측을 생성하는 데 필요한 리소스가 포함됩니다.

Genomics Tertiary Analysis and Machine Learning Using Amazon SageMaker

버전 1.0
최종 업데이트 날짜: 2020년 8월
작성자: AWS

이 솔루션 구현이 도움이 되었나요?
피드백 제공 

기능

AWS에서 확장 가능한 환경을 제공하여 유전체 분석과 연구 프로젝트 실행

AWS Managed Services로 유전체 데이터 세트에 대한 기계 학습 모델을 구축하기 위한 확장 가능한 환경을 AWS에 생성합니다. 이 솔루션은 AWS에서 유전체 기계 학습을 위한 광범위한 플랫폼을 제공하며, 변종 분류를 이 플랫폼으로 해결할 수 있는 과학적으로 유의한 문제의 예시로 제시합니다.

지속적 통합 및 지속적 전달(CI/CD) 활용

AWS CodeCommit 소스 코드 리포지토리, AWS CodeBuild 프로젝트 및 AWS CodePipeline을 사용하여 유전체 기계 학습 모델 생성 파이프라인과 Jupyter 노트북을 배포하고, 추출, 변환 및 로드(ELT) 작업을 생성해 새로운 훈련 데이터 집합을 만듭니다.

코드형 인프라 모범 사례 활용

코드형 인프라(IaC) 원리와 모범 사례를 활용하여 지침을 신속하게 발전시킵니다.

유전체 분석 및 연구 프로젝트에 맞게 수정

고유한 훈련 데이터 집합을 추가해 각각의 필요에 맞게 지침을 수정합니다. 각 변경 사항은 CI/CD 파이프라인에서 추적되므로 변경 제어 관리, 롤백 및 감사가 용이합니다.
구축 아이콘
AWS 솔루션 직접 배포

AWS 솔루션 라이브러리에서 일반적인 아키텍처 문제에 대한 답을 검색해 보실 수 있습니다.

자세히 알아보기 
APN 파트너 찾기
AWS 파트너 솔루션 찾기

시작하는 데 도움이 되는 AWS 파트너를 찾아보세요.

자세히 알아보기 
살펴보기 아이콘
살펴보기 지침

일반적인 사용 사례에 대한 권장 아키텍처 다이어그램, 샘플 코드 및 기술 콘텐츠를 찾아보세요.

자세히 알아보기