이 AWS 솔루션 구현에서 제공하는 기능

Amazon SageMaker를 사용한 유전체 3차 분석 및 기계 학습 솔루션은 AWS 클라우드에서 AWS Managed Services를 사용하여 유전체 데이터 세트를 기반으로 한 기계 학습 모델을 구축하는 데 활용할 수 있는 플랫폼을 만듭니다. AWS에서는 3차 분석이란 유전체 변종을 해석하고 여기에 의미를 부여하는 것으로 정의합니다. 이 솔루션은 AWS에서 유전체 기계 학습을 위한 광범위한 플랫폼을 제공하며, 변종 분류를 이 플랫폼으로 해결할 수 있는 과학적으로 유의한 문제의 예시로 제시합니다. 이 예시에서는 유전체 변종을 검사할 때 임상적 정의가 대립되는 문제를 해결합니다. 예시는 다음과 같은 Kaggle 문제를 기반으로 합니다. ClinVar에 주석으로 달린 변종에 대립되는 분류가 있는지를 예측하는 모델을 만듭니다. 변종에 대립되는 분류가 있는지 예측하는 모델은 연구자들이 이런 대립을 찾느라 사용하는 시간을 절약할 수 있습니다.

이 솔루션은 1) 유전체학 기계 학습 훈련 데이터 세트의 준비를 자동화하고, 2) 유전체학 기계 학습 모델 훈련 및 배포 파이프라인을 개발하고, 3) 예측을 생성하여 테스트 데이터로 모델 성능을 평가하는 방법을 보여줍니다. 이 단계는 각 사용 사례에 따라 사용자가 반복하거나 편집할 수 있습니다.

AWS 솔루션 구현 개요

아래 다이어그램은 솔루션의 구현 안내서와 함께 AWS CloudFormation 템플릿을 사용하여 자동으로 배포할 수 있는 아키텍처를 보여줍니다.

Amazon SageMaker를 사용한 유전체 3차 분석 및 기계 학습 | 아키텍처 다이어그램
 확대하려면 클릭

Amazon SageMaker를 사용한 유전체 3차 분석 및 기계 학습 솔루션 아키텍처

AWS CloudFormation 템플릿은 솔루션 설치를 위한 setup 스택을 포함한 4개의 CloudFormation 스택을 AWS 계정에 생성합니다. 그 외에 다른 스택으로는 공통적인 솔루션 리소스와 아티팩트가 포함된 랜딩 영역(zone) 스택, 솔루션의 지속적 통합지속적 전달(CI/CD) 파이프라인을 정의하는 배포 파이프라인(pipe) 스택, ETL 스크립트, 작업, 크롤러, 데이터 카탈로그 및 노트북 리소스를 제공하는 코드베이스(code) 스택 등이 있습니다.

솔루션의 setup 스택은 setup.sh 스크립트가 포함된 AWS CodeBuild 프로젝트를 생성합니다. 이 스크립트가 나머지 CloudFormation 스택을 생성하고, AWS CodeCommit pipe 리포지토리와 code 리포지토리에 대한 소스 코드를 제공합니다.

랜딩 영역(zone) 스택은 CodeCommit pipe 리포지토리를 생성합니다. 랜딩 영역(zone) 스택의 설정이 완료되면 setup.sh 스크립트가 CodeCommit pipe 리포지토리로 소스 코드를 푸시합니다.

AWS CodePipeline code 파이프라인은 코드베이스(code) CloudFormation 스택을 배포합니다. 계정에 배포되는 리소스로는 객체 액세스 로그, 빌드 아티팩트, 데이터를 저장하기 위한 Amazon Simple Storage Service(Amazon S3) 버킷, 소스 코드를 위한 CodeCommit 리포지토리, 코드 아티팩트(예: 데이터 처리에 사용되는 타사 라이브러리) 구축을 위한 AWS CodeBuild 프로젝트, 리소스의 구축 및 배포를 자동화하기 위한 CodePipeline 파이프라인, 예제 AWS Glue 작업, Amazon SageMaker Jupyter 노트북 인스턴스 등이 있습니다. 예제 코드에는 유전체 데이터를 사용하여 기계 학습 모델을 신속히 개발하고 예측을 생성하는 데 필요한 리소스가 포함됩니다.

Amazon SageMaker를 사용한 유전체 3차 분석 및 기계 학습

버전 1.0
최종 업데이트 날짜: 2020년 8월
작성: AWS

예상 배포 시간: 30분

아래 버튼을 사용하여 솔루션 업데이트에 가입하십시오.

참고: RSS 업데이트에 가입하려면 사용 중인 브라우저에 대해 RSS 플러그인이 활성화되어 있어야 합니다.  

이 솔루션 구현이 도움이 되었나요?
피드백 제공 

기능

AWS에서 확장 가능한 환경을 제공하여 유전체 분석과 연구 프로젝트 실행

AWS Managed Services로 유전체 데이터 세트에 대한 기계 학습 모델을 구축하기 위한 확장 가능한 환경을 AWS에 생성합니다. 이 솔루션은 AWS에서 유전체 기계 학습을 위한 광범위한 플랫폼을 제공하며, 변종 분류를 이 플랫폼으로 해결할 수 있는 과학적으로 유의한 문제의 예시로 제시합니다.

코드형 인프라 모범 사례 활용

IaC(코드형 인프라) 원리와 모범 사례를 활용하여 솔루션을 신속하게 발전시킵니다.

지속적 통합 및 지속적 전달(CI/CD) 활용

AWS CodeCommit 소스 코드 리포지토리, AWS CodeBuild 프로젝트 및 AWS CodePipeline을 사용하여 유전체 기계 학습 모델 생성 파이프라인과 Jupyter 노트북을 배포하고, 추출, 변환 및 로드(ELT) 작업을 생성해 새로운 훈련 데이터 세트를 만듭니다.

유전체 분석 및 연구 프로젝트에 맞게 수정

고유한 훈련 데이터 세트를 추가해 각각의 필요에 맞게 솔루션을 수정합니다. 각 변경 사항은 CI/CD 파이프라인에서 추적되므로 변경 제어 관리, 롤백 및 감사가 용이합니다.
구축 아이콘
솔루션 직접 배포

AWS 솔루션 구현 라이브러리에서 일반적인 아키텍처 문제에 대한 답을 검색해 보실 수 있습니다.

자세히 알아보기 
APN 파트너 찾기
APN 파트너 찾기

시작하는 데 도움이 되는 AWS 공인 컨설팅 및 기술 파트너를 찾으십시오.

자세히 알아보기 
살펴보기 아이콘
솔루션 컨설팅 오퍼 살펴보기

AWS의 컨설팅 오퍼 포트폴리오를 살펴보고 솔루션 배포 시 AWS의 검증된 지원을 받으세요.

자세히 알아보기